Na análise de correlação, verifica-se, apenas, o poder da relação entre duas variáveis, sem levar em conta as demais. Nesse teste, a influência de cada uma das variáveis estudadas sobre o nível de alavancagem só pode ser verificada separadamente. Para avaliar em conjunto a influência de todas as variáveis independentes sobre o nível de alavancagem financeira dos bancos - variável dependente - é necessário realizar testes de regressão múltipla linear.
Entretanto, antes de aplicá-los, faz-se necessário verificar o atendimento aos seus pressupostos que variam conforme o modelo empregado. No caso do modelo de cross section, os testes preliminares são normalidade e homocedasticidade dos resíduos, linearidade dos coeficientes e ausência de multicolinearidade das variáveis independentes. O detalhamento dos testes de pressupostos segue abaixo.
Normalidade dos resíduos
Hair et al (2009, p. 82) afirmam que “a suposição mais fundamental em análise multivariada é a normalidade dos resíduos”. Sua rejeição torna os testes de regressão inválidos, uma vez que a normalidade é exigida no emprego das estatísticas F e t.
Segundo Gujarati (2006), a regressão linear supõe que cada termo de erro ou resíduo (ui) se distribua normalmente com média igual a zero [E(ui) = 0], variância igual ao quadrado do desvio-padrão [E(u i 2) = σ2] e covariância igual a zero [E(ui, uj) = 0]. Logo, com a hipótese da normalidade, significa que ui e uj não apenas não possuem correlação, como também se distribuem independentemente, ou seja, ui~ NID (0, σ2).
Por sua vez, o termo de erro ou resíduo representa a influência combinada – na variável dependente – de um grande número de variáveis independentes que não foram incluídas no modelo de regressão. Em outras palavras, ele corresponde à diferença entre os valores observados e estimados para a variável dependente[
uˆi
(YiYˆi)]. Dessa forma, espera-se que a influência dessas variáveis omitidas ou esquecidas seja pequena e, quandomuito, aleatória. Em função do teorema do limite central37, caso haja um grande número de variáveis aleatórias independentes distribuídas, sua soma tenderá a uma distribuição normal à medida que seu número aumente indefinidamente. Assim sendo, é o teorema do limite central que fornece uma justificativa teórica para a hipótese da normalidade de ui.
Entre os testes de avaliação da existência de distribuição normal dos termos de erro ou resíduos (ui), citam-se: Kolmogorov-Smirnov, Shapiro-Wilk e Jarque-Bera (CORRAR; PAULO; DIAS FILHO, 2009). O teste de Jarque-Bera é um teste assintótico, ou seja, para grandes amostras, e que se baseia nos resíduos do método de Mínimos Quadrados Ordinários (MQO), tendo sido aplicado neste trabalho. Segundo Gujarati (2006), a estatística do teste de Jarque-Bera segue a distribuição Qui-Quadrado com dois graus de liberdade. Sua hipótese nula é de que os resíduos se distribuem normalmente.
Homocedasticidade dos resíduos
Outra suposição exigida para os testes de regressão múltipla linear é a existência de homocedasticidade dos termos de erro. O conjunto de resíduos referentes a cada observação de X deve ter variância constante ou homogênea em toda a extensão das variáveis independentes, ou seja, a dispersão da variável dependente (Y) em relação às observações das variáveis independentes (Xi) deve manter consistência ou ser constante em todas as dimensões dessa variável. Em outras palavras, o termo de erro (ui) é homoscedástico se a variância da distribuição condicional de (ui) dado Xi é constante para i = 1, ...., n e em particular não depende de Xi. Caso contrário, o termo de erro é heteroscedástico (CORRAR; PAULO; DIAS FILHO, 2009; STOCK; WATSON, 2004).
O diagnóstico da homocedasticidade pode ser realizado por meio de gráficos ou testes estatísticos, tais como: Breush-Pagan, Pesarán-Pesarán, White, Park, Glejser, Goldfeld- Quandt. Entre eles, o teste geral de heterocedasticidade de White não depende da hipótese de normalidade, tendo sido o utilizado por este trabalho. A hipótese nula (H0) do teste é que a variância dos resíduos é constante ou homoscedástica (GUJARATI, 2006; WOOLDRIDGE, 2008; CORRAR; PAULO; DIAS FILHO, 2009).
37 Outra inferência atribuída ao teorema de limite central é que se a população sob amostragem tem distribuição normal, a distribuição das médias amostrais, também, será normal para todos os tamanhos de amostra. Além disso, mesmo no caso de uma distribuição não normal, a distribuição das médias amostrais será aproximadamente normal, desde que a amostra seja grande (STEVENSON, 1981, p. 181).
Linearidade dos coeficientes
Segundo Gujarati (2006), o termo linear possui dois significados. O primeiro é que a expectativa condicional da variável dependente (Y) é uma função linear das variáveis independentes (Xi), em que i varia de 1 até n, ou seja, Y = β0+ β1 X1+ β2 X2+ ... + βn Xn. Matematicamente, essa relação pode ser explicada como uma equação de primeiro grau. A segunda interpretação é que os parâmetros (β), que representam coeficientes lineares e angulares, são elevados apenas à primeira potência, sendo sua aplicação na estimação de Y feita de forma matemática e proporcional (CORRAR; PAULO; DIAS FILHO, 2009).
Referidas características sobre a linearidade são derivados do método MQO, o qual inclui o termo de erro ou resíduo na equação de primeiro grau, ou seja: Y = β0+ β1 X1+ β2 X2 + ... + βn Xn + ui. O objetivo desse método é escolher uma função de regressão amostral de forma que a soma do quadrado dos erros ou resíduos seja a menor possível (STOCK; WATSON, 2004), ou seja, o mesmo testa a forma funcional mais adequada para o modelo. Significa dizer que se os resíduos das regressões auxiliares ainda possuem relação com as variáveis explicativas e seus quadrados é porque o modelo não foi bem especificado ou sua forma funcional pode não ser linear, após considerar seus valores empíricos. Para efetuar o teste do pressuposto de linearidade, sua hipótese nula (H0) é que o coeficiente (β) é igual a zero. Obviamente, deseja-se rejeitá-la.
Multicolinearidade das variáveis independentes
Outro pressuposto está relacionado ao exame de multicolinearidade que significa a existência de uma relação linear – perfeita ou não - entre algumas ou todas as variáveis explicativas de um modelo de regressão (GUJARATI, 2006). Tal fato ocorre quando duas ou mais variáveis independentes de um mesmo modelo possuem informações similares. Nesse caso, apenas uma delas seria necessária.
Como consequência, a multicolinearidade tende a distorcer os coeficientes angulares estimados para as variáveis que a apresentam, prejudicando a habilidade preditiva do modelo e a compreensão do real efeito da variável independente sobre o comportamento da variável dependente. Sempre haverá algum nível de correlação entre as variáveis dependentes.
Todavia, o que se pretende é que esse efeito seja minimizado de forma a não comprometer o resultado final do modelo de regressão (CORRAR; PAULO; DIAS FILHO, 2009).
A identificação da multicolinearidade pode ocorrer por meio da observação de altos valores para os coeficientes de correlação (r) e de determinação (R2), além de coeficientes de regressão (linear e angular) não significativos e altos valores para o Fator de Inflação da Variância (FIV).
Segundo Anderson, Sweeney e Williams (2008) um coeficiente de correlação (r) amostral maior que + 0,70 ou menor que - 0,70 para duas variáveis independentes é um aviso prático de que há potenciais problemas com a multicolinearidade. Por sua vez, o coeficiente de determinação (R2) varia entre 0 e 1 e mede a eficiência de ajuste da equação de regressão múltipla estimada. O mesmo é calculado por meio da seguinte fórmula (FÁVERO et al, 2009):
SQT SQR
R2 e SQT = SQR + SQU
em que:
STQ: Soma total dos quadrados ou dos desvios dos valores de cada
observação em relação à média;
2y) i y (
SQR: Soma dos quadrados da regressão ou dos desvios da reta de regressão
para cada observação em relação à média;
2y) i yˆ (
SQU: Soma dos quadrados dos resíduos ou dos desvios dos valores de cada
observação em relação à reta de regressão.
yˆi)2 i y (
Ou seja, quando multiplicado por 100, o coeficiente de determinação (R2) pode ser interpretado como a porcentagem da variabilidade da variável dependente (Y) que pode ser explicada pela equação de regressão múltipla estimada
Yˆ . Se o modelo de regressão é propriamente aplicado e estimado, pode-se assumir que quanto maior o valor de R2, maior o poder de explicação da equação de regressão e, portanto, melhor a previsão da variável dependente.De acordo com Hair et al (2009), o fator de inflação de variância (FIV) mostra como a variância de um estimador se infla pela presença da multicolinearidade, o qual é calculado
como o inverso do valor de tolerância (TOL). A tolerância, por sua vez, é uma medida da quantia da variabilidade da variável independente selecionada não explicada pelas outras variáveis independentes, sendo calculada por (1 - R2). O FIV é calculado por meio da seguinte fórmula (HAIR et al, 2009):
2 R 1 1 TOL 1 FIV
Logo, à medida que o coeficiente de determinação (R2) se aproxima de 1, o FIV se aproxima do infinito. Para Gujarati (2006), um R2 de 0,80 ou TOL = 0,20 corresponde a um FIV = 5, o que pode ser considerado como um alto nível de multicolinearidade. Já para Hair et al (2009), os níveis geralmente aceitos de multicolinearidade correspondem a um TOL = 0,10 e FIV = 10.