Analisando os valores omissos, determinou-se não se considerar as variáveis com mais de 20% de observações nessa situação (Tabela 5).
Tabela 5 – Análise de valores omissos
N NMiss % NMISS P1 P99 AC_EX_PCP 252 246 8 480 3,25% 0,01 119,78 AC_PCP 252 246 8 480 3,25% 0,04 196,72 ALAVANCAG 258 564 2 162 0,83% 0,01 6,55 AT_VN 231 283 29 443 11,29% 0,12 82,37 CD_AT 254 427 6 299 2,42% 0,00 0,96 CD_PCP 246 906 13 820 5,30% 0,00 57,81 CP_AT 260 516 210 0,08% -5,51 1,00 CP_PT 258 649 2 077 0,80% -0,85 100,35 DACC_PT 141 775 118 951 45,62% 0 1,00 DAT_ACC_AT 141 698 119 028 45,65% 0 3,4 DAT_AT 258 309 2 417 0,93% 0,01 6,47 DCOM_AT 16 622 244 104 93,62% 0 3,96 DDT_PROV_AT_IM 253 568 7 158 2,75% -10,55 11,7 DDT_PROV_DAT 251 326 9 400 3,61% 0 30,63 DFIN_AT 121 924 138 802 53,24% 0 1,25 DFIN_DAT 121 931 138 795 53,23% 0 0,98 DFIN_OB_AT 122 290 138 436 53,10% 0 1,26 DFIN_PT 121 931 138 795 53,23% 0 0,97 DOT_PT 181 597 79 129 30,35% 0 1 EBIT_AT 257 520 3 206 1,23% -1,93 0,52 EBIT_JCS 230 839 29 887 11,46% -1 464,17 1 586,31 EBIT_VN 231 306 29 420 11,28% -4,6 0,91 FM_AT 260 539 187 0,07% -4,54 1 IM_AT 250 703 10 023 3,84% 0 0,98 JCS_DFIN 118 861 141 865 54,41% 0 47,13 JCS_DAT 230 711 30 015 11,51% 0 0,34 ln_AT 260 524 202 0,08% 8,24 16,77 ln_VN 231 307 29 419 11,28% 7,54 16,58 PCP_AT 258 309 2 417 0,93% 0 5,31 PCP_PT 258 418 2 308 0,89% 0 1 PCP_PT_PROV 258 418 2 308 0,89% 0 1 PMP 207 320 53 406 20,48% 0 7 636,83 PMR 154 845 105 881 40,61% 0 1 553,3 PMRE 168 956 91 770 35,20% 0,81 117 907,41 RL_AT 257 520 3 206 1,23% -2,03 0,49 RL_CP 257 601 3 125 1,20% -6,91 6,24 RL_VN 231 306 29 420 11,28% -5,69 0,72 RO_AT 257 425 3 301 1,27% -1,84 0,57 RO_VN 231 306 29 420 11,28% -5,29 0,79 RT_AT 206 693 54 033 20,72% -8,38 0,78 VN 231 314 29 412 11,28% 1864 15 808 778
44 N NMiss % NMISS P1 P99 VN_AT 231 285 29 441 11,29% 0,01 8,32 antiguidade 257 287 3 439 1,32% 2,47 774,2
Retirando as variáveis DACC_PT, DAT_ACC_AT, DCOM_AT, DFIN_AT, DFIN_DAT, DFIN_OB_AT, DFIN_PT e DOT_PT, subsistem observações com valores omissos, as quais, para não se incorrer em potenciais enviesamentos decorrentes de imputação de omissos, não vão ser consideradas. Retirando estes casos, ficamos com 198 095 empresas, sendo que 1 226 empresas tiveram sinais de incumprimento em 2009 (0,62%).
A introdução de variáveis explicativas correlacionadas acarreta vários problemas. Por um lado, o significado do modelo poderá perder-se, uma vez que podem coexistir variáveis das quais se retira a mesma informação, o que faz com que o modelo perca valor em termos de contribuição para a explicação de um determinado fenómeno. Por outro lado, as estimativas dos coeficientes das variáveis explicativas ficam afectados, com possibilidade de os seus sinais serem estimados erroneamente, e as conclusões dos ensaios de hipóteses podem ficar comprometidas, uma vez que os erros-padrão tendem a ser inflacionados e maiores do que seriam caso as variáveis não estivessem correlacionadas.
A partir da construção de uma matriz de correlações26, identificaram-se as correlações superiores a 0,5 ou inferiores a -0,5. Além disso, fizeram-se algumas análises com vista a aprimorar a identificação de variáveis com problemas de colinearidade, calculando-se a tolerância e o seu inverso Variance Inflation Factor (VIF), normalmente aplicados nas regressões lineares múltiplas. A tolerância é uma medida da proporção de variância de uma variável explicativa que não é explicada pelas restantes, pelo que interessará reter variáveis com elevados níveis de tolerância. O seu inverso, VIF, representa um factor multiplicativo associado à variância na presença de problemas de colinearidade. Por outras palavras, a variância do coeficiente estimado para determinada variável pode ser várias vezes superior ao que seria de esperar se as variáveis explicativas não fossem correlacionadas. Uma vez identificadas as variáveis correlacionadas, seleccionaram-se as variáveis de acordo com o seu nível de tolerância (e, quando caso disso, pelo interesse da informação que veiculam). A
26
Cf. Anexo 2, onde se encontra a matriz de correlações, na qual se apresentam as 10 variáveis mais
45
Tabela 6 apresenta o diagnóstico de colinearidade das variáveis explicativas com base na tolerância e no VIF.
Tabela 6 – Diagnóstico de colinearidade das variáveis explicativas
Diagnóstico de colinearidade
AC_AT Altamente correlacionada com IM_AT; tolerância 0,037; selecciona-se AC_AT por ser mais interessante ter uma medida de liquidez
AC_DAT Correlacionada com DDT_PROV_DAT, AC_PCP, AC_EX_PCP e CD_PCP e tolerância 0,218; selecciona-se CD_PCP pelo nível de tolerância
AC_EX_PCP Correlacionada com AC_PCP, AC_DAT, DDT_PROV_DAT e CD_PCP e tolerância 0,089; selecciona-se CD_PCP pelo nível de tolerância
AC_PCP Correlacionada com AC_EX_PCP, AC_DAT, DDT_PROV_DAT e CD_PCP e tolerância 0,086; selecciona-se CD_PCP pelo nível de tolerância
ALAVANCAG Correlacionada com CP_AT, DAT_AT, PCP_AT, FM_AT, RL_AT e EBIT_AT e tolerância 1.1506E-01; selecciona-se FM_AT pelo nível de tolerância
Antiguidade Sem problemas de correlação e tolerância 0,929 AT_VN Sem problemas de correlação e tolerância 0,692 CD_AT Sem problemas de correlação e tolerância 0,841
CD_PCP Correlacionada com AC_PCP, AC_EX_PCP e tolerância 0.609; selecciona-se CD_PCP pelo nível de tolerância
CP_AT Correlacionada com ALAVANCAG, DAT_AT, PCP_AT, FM_AT, RL_AT, EBIT_AT e tolerância 1.1507E-01; selecciona-se FM_AT pelo nível de tolerância CP_PT Sem problemas de correlação e tolerância 0,783
DAT_AT Correlacionada com ALAVANCAG, CP_AT, PCP_AT, FM_AT, RL_AT e EBIT_AT e tolerância 0.005; selecciona-se FM_AT pelo nível de tolerância DDT_PROV_AT_IM Sem problemas de correlação e tolerância 0,999
DDT_PROV_DAT Correlacionada com AC_DAT, AC_EX_PCP, AC_PCP e tolerância 0.273 EBIT_AT Correlacionada com RL_AT, RO_AT, PCP_AT, ALAVANCAG, CP_AT, FM_AT e DAT_AT e tolerância 0.010; selecciona-se RO_AT pelo nível de tolerância
EBIT_JCS Sem problemas de correlação e tolerância 0,997
EBIT_VN Correlacionada com RO_VN e RL_VN e tolerância 0,094; selecciona-se RL_VN por ter uma maior tolerância
FM_AT Correlacionada com PCP_AT, DAT_AT, CP_AT, ALAVANCAG, RL_AT e
EBIT_AT e tolerância 0.116; selecciona-se FM_AT pelo nível de tolerância IM_AT Altamente correlacionada com AC_AT, tolerância 0,038
JCS_DAT Sem problemas de correlação e tolerância 0,972
Ln_AT Correlacionada com ln_VN e tolerância 0,282; selecciona-se ln_VN Ln_VN Correlacionada com ln_AT e tolerância 0,302; selecciona-se ln_VN PCP_AT Correlacionada com FM_AT, DAT_AT, CP_AT, ALAVANCAG, RL_AT e
EBIT_AT e tolerância 0
PCP_PT Altamente correlacionada com PCP_PT_PROV e tolerância 0,004; selecciona-se PCP_PT_PROV por ser uma medida líquida, do lado do passivo
PCP_PT_PROV Altamente correlacionada com PCP_PT e tolerância 0,004; selecciona-se PCP_PT_PROV por ser uma medida líquida, do lado do passivo RL_AT Correlacionada com EBIT_AT, RO_AT, ALAVANCAG, CP_AT, PCP_AT,
FM_AT e DAT_AT e tolerância 0.009; selecciona-se RO_AT pelo nível de tolerância
RL_CP Sem problemas de correlação e tolerância 0,999
RL_VN Correlacionada com RO_VN e EBIT_VN e tolerância 0,135; selecciona-se RL_VN por ter uma maior tolerância
RO_AT Correlacionada com RL_AT e EBIT_AT e tolerância 0.389; selecciona-se RO_AT pelo nível de tolerância
46
Diagnóstico de colinearidade RL_VN por ter uma maior tolerância
VN_AT Sem problemas de correlação e tolerância 0,519
Os valores das estatísticas de diagnóstico de colinearidade após selecção de variáveis são apresentados na Tabela 7.
Tabela 7 – Valores das estatísticas de diagnóstico de colinearidade após selecção de variáveis
Tolerância VIF Antiguidade 0,944 1,059 AC_AT 0,844 1,185 AT_VN 0,902 1,108 CD_AT 0,880 1,136 CD_PCP 0,948 1,055 CP_PT 0,939 1,065 DDT_PROV_AT_IM 0,999 1,000 EBIT_JCS 0,998 1,002 FM_AT 0,738 1,355 JCS_DAT 0,979 1,021 ln_VN 0,859 1,165 PCP_PT_PROV 0,897 1,115 RL_CP 0,999 1,000 RL_VN 0,902 1,109 RO_AT 0,735 1,360 VN_AT 0,814 1,228
Para confirmar que não existem problemas de multicolinearidade nas variáveis seleccionadas, calculou-se o Condition Index, tendo-se verificado que o maior valor desse índice não ultrapassa 3027, habitualmente considerado como valor de referência para a existência de problemas graves de multicolinearidade.