Uma regra geral é que a razão entre o tamanho da amostra e o número de variáveis independentes não deve ficar abaixo de 5 para 1, o que significa que deve haver 5 observações para cada variável independente. Se a proporção ficar abaixo de 5 para 1, corre-se o risco de “superajustar” o modelo à amostra, tornando os resultados demasiadamente específicos a ela, e perdendo a generalização.
Apesar da proporção mínima ser 5:1, o nível desejado está entre 15 e 20 observações para cada variável independente.
3.6 VARIÁVEIS ARTIFICIAIS ("DUMMY") / SAZONALIDADE
Às vezes é necessário incluir fatores qualitativos no modelo (por exemplo, homem ou mulher, aprovado ou reprovado, etc). Isto é obtido através da criação de uma variável artificial ("dummy"), também chamadas "indicadoras" ou ainda "binárias". Usualmente, utiliza-se os valores 0 ou 1 para identificar quantitativamente as classes de uma variável qualitativa. Dada esta sua característica binária, a variável artificial pode ser entendida como um "comutador" (switch).
Em nosso caso, alguns fatores específicos que influenciam o comportamento da Propensão poderão ser variáveis "dummy". Por exemplo, existem sazonalidades no comportamento da Propensão em determinadas épocas do ano, como 13o salário ou início do ano, que serão traduzidas através deste tipo de variáveis (vide Capítulo 4.4.5).
3.7 MULTICOLINEARIDADE
Para muitos modelos matemáticos, através de regressão linear simples se consegue explicar uma parcela razoável da evolução da variável dependente. No entanto, teremos ainda uma parcela restante da variação do comportamento deixado
inexplicado. Buscamos portanto outras variáveis independentes que sejam relacionadas à série em estudo. No entanto, estas novas variáveis independentes (ou preditivas) não podem ser altamente relacionadas à variável independente já em uso. "Existe uma grande preocupação com este problema de intercorrelação entre
variáveis independentes. [..] Uma boa variável preditiva deverá portanto ser relacionada à variável dependente [...] sem ser altamente relacionada às demais variáveis independentes" (HANKE, 2001, p. 242, tradução nossa).
No entanto, em muitos casos, algumas variáveis independentes são linearmente dependentes entre si. Uma relação linear entre duas ou mais variáveis independentes é chamada multicolinearidade. Isto implica que há redundância de informações entre as variáveis preditoras / preditivas.
Ao adicionarmos mais uma variável independente, sua capacidade de melhorar a previsão está relacionada não apenas a sua correlação com a variável dependente, mas também com suas correlações com as demais variáveis independentes já incluídas no modelo (ou equação de regressão). Colinearidade é a associação entre duas variáveis independentes, medida como a correlação. Multicolinearidade refere-se à correlação entre três ou mais variáveis independentes, e fica evidenciada quando se faz a regressão de uma em relação às demais.
Quando ocorre multicolinearidade, o processo de separação de efeitos individualmente se torna mais difícil. A determinação da contribuição de cada variável independente é mais complicada porque os efeitos das variáveis independentes estão “misturados” ou confusos.
A colinearidade entre variáveis independentes não impede que o ajuste do modelo seja bom, e não necessariamente afeta a qualidade das previsões - contanto que a mesma estrutura de correlações se mantenha na extrapolação. E mais, ela pode até mesmo ser conveniente em alguns casos, para aumentar o poder explicativo de outra(s) variável(is), e conseqüentemente o poder previsor do modelo.
Um caso extremo de multicolinearidade é a singularidade, que ocorre quando duas ou mais variáveis são perfeitamente correlacionadas, impedindo a estimação de
quaisquer coeficientes. Neste caso, a singularidade deve ser removida antes que a estimação dos coeficientes prossiga. Mesmo não sendo a multicolinearidade perfeita, elevados graus podem fazer com que os coeficientes de regressão sejam incorretamente estimados, e tenham até mesmo sinais invertidos.
Em nosso modelo selecionamos inicialmente diversas variáveis independentes semelhantes (por exemplo alguns indicadores de inflação, outros de nível de atividade, alguns de renda). Aquelas de maior correlação com a Propensão ao Financiamento foram mantidas; as demais, dadas suas altas correlações com as previamente selecionadas, foram eliminadas.
A maneira mais simples de se identificar a colinearidade é um exame da Matriz de Correlação das variáveis independentes. A presença de altas correlações (geralmente 0,90 ou mais) é a primeira indicação de colinearidade substancial. Por outro lado, a ausência de correlação não garante falta de multicolinearidade, pois esta pode ocorrer devido ao efeito combinado de duas ou mais variáveis independentes.
3.8 V.I.F. (VARIANCE INFLATION FACTOR) E TOLERÂNCIA
As duas medidas mais comuns para avaliar a colinearidade de duas ou mais variáveis são o valor de tolerância e seu inverso, o fator de inflação de variância (normalmente conhecido por sua sigla em inglês VIF, ou Variance Inflation Factor). Estas medidas nos dizem o grau em que cada variável independente é explicada pelas demais variáveis independentes. Em termos simples, cada variável independente se torna uma dependente, e passa por uma regressão em relação às demais. A tolerância é a “quantidade” de variabilidade da variável independente selecionada que não é explicada pelas demais variáveis independentes. Logo, valores muito pequenos de tolerância (e grandes de VIF, uma vez que VIF = 1 / tolerância) denotam colinearidade elevada. Procuramos valores VIF pequenos como indicativos de baixa intercorrelação entre as variáveis (HAIR, pg. 179).
O valor de VIF é estipulado pelo pesquisador nos programas de regressão. Um valor de referência comum é uma tolerância de 0,10, equivalente a um valor VIF igual a 10. Considera-se que um VIF superior a 10 seja uma indicação de que a multicolinearidade possa causar problemas na estimação.
3.9 AÇÕES CORRETIVAS PARA A MULTICOLINEARIDADE
Determinado o grau de multicolinearidade, temos algumas opções a seguir:
• Excluir uma ou mais das variáveis independentes altamente correlacionadas (deve haver cuidado ao seguir esta opção para evitar um erro de especificação ao se eliminar variáveis independentes);
• Utilizar o modelo com as variáveis independentes correlacionadas apenas para previsão (ou seja, jamais tentando interpretar os coeficientes de regressão);
• Utilizar modelos mais sofisticados de análise (vide HAIR, pg. 169).
3.10 SELEÇÃO DAS VARIÁVEIS E DA "MELHOR" EQUAÇÃO / REGRESSÃO “STEPWISE”
O processo de Regressão STEPWISE consiste em se estabelecer seqüencialmente modelos com um crescente número de variáveis independentes a partir da entrada e saída de variáveis, de forma que o poder de previsão destes modelos é sucessivamente melhorado. Inicialmente a variável independente de melhor correlação com a variável dependente é incluída no modelo. A seguir, analisa-se qual a próxima variável independente a ser incluída cuja combinação com aquela inicialmente escolhida fornecerá uma equação com melhor poder explicativo. E assim sucessivamente novas variáveis independentes vão sendo incluídas (ou excluídas), aumentando a correlação do modelo com a variável dependente.
Caso a cada passo haja somente a inclusão de novas variáveis independentes, se estará utilizando o método “forward”. A remoção de variáveis independentes – que ocorre quando a informação nelas contidas já foi disponibilizada através de alguma combinação de outras variáveis incluídas em estágios posteriores – é chamada
método “backward”. Em nosso caso, utilizaremos o procedimento STEPWISE considerando-se sucessivamente tanto a inclusão como a exclusão de variáveis independentes.
Este método é especialmente útil quando se dispõe de um número relativamente grande de variáveis independentes para análise. A seleção seqüencial (inclusão e exclusão) leva a um conjunto final reduzido, quase tão bom quanto o conjunto completo de variáveis.
Esquema 1 – Processo de Especificação do Modelo Iterativo
3.11 “OUTLIERS”
Outliers são pontos distantes ou afastados da massa de dados. É necessário que
sejam identificados, analisadas suas causas e origens, verificada sua influência na estimação dos parâmetros e seu impacto nas previsões, e finalmente decidir se ações corretivas são necessárias e cabíveis.
O impacto de outliers pode ser grande, e "arrastar" o modelo de regressão para uma equação um pouco menos precisa quanto a todos os demais pontos, objetivando minimizar a SSE. Devemos tomar ação corretiva caso o impacto do outlier nas estimativas seja significativo para os objetivos do problema. Uma possível ação corretiva é a eliminação da observação. O excesso de outliers pode ser indicativo da inadequabilidade do modelo linear.
Fonte: FREES, 1996, pg. 141
FORMULAÇÃO
DO MODELO AJUSTE AVALIAÇÃO / DIAGNÓSTICO
DADOS
TEORIA
INFERÊNCIA ANÁLISE