2. Teori
2.2 Selvdetermineringsteori
Após terem sido especificados os objetivos da análise de regressão, selecionando as variáveis dependentes e independentes, abordado as questões de planejamento da pesquisa e tendo sido avaliado se as variáveis atendem às suposições da regressão, deve-se ajustar o modelo de regressão e avaliar a precisão explicativa geral das variáveis independentes. Nesse estágio devem ser cumpridas três tarefas básicas: selecionar um método para especificar um
modelo, avaliar a significância estatística do modelo e determinar se alguma das observações exerce uma influencia indevida nos resultados.
3.6.1 Seleção de um Método para Especificar um Modelo
Na maioria dos casos, a pesquisa tem várias possíveis variáveis independentes que podem ser escolhidas para inclusão na equação de regressão. Algumas vezes, o conjunto de variáveis independentes pode ser especificado, outras vezes não. Para selecionar um método para especificar o modelo a ser ajustado na pesquisa tem-se que considerar a abordagem a ser escolhida. Algumas vezes, o conjunto de variáveis pode ser especificado e o modelo é essencialmente usado com uma abordagem confirmatória. Em outros casos, podem ser escolhidas algumas variáveis em um conjunto. Existem vários métodos adequados para a tarefa conforme abaixo:
Método Especificações Confirmatórias – É a abordagem mais simples e mais exigente, pois deve ser especificado completamente o conjunto de variáveis independentes a serem utilizadas. Fica na responsabilidade do pesquisador assegurar de que o conjunto de variáveis atinja a previsão máxima. Nessa abordagem se tem total controle sobre a seleção das variáveis, devendo ser assegurado que o conjunto de variáveis atinja a previsão máxima, embora mantendo um modelo parcimonioso.
Método Busca Seqüencial – Os métodos de busca seqüencial têm em comum a abordagem de estimar a equação com um conjunto de variáveis e então acrescentar seletivamente ou eliminar variáveis até que alguma medida de critério geral seja alcançada. Essa abordagem fornece um método objetivo para selecionar variáveis que maximiza a previsão com o menor número de variáveis empregadas. Há três tipos de abordagem de busca seqüencial: Stepwise e Forward (adição) e Backward (eliminação), as quais serão descritas abaixo:
• Estimação Stepwise – Talvez seja a abordagem mais comum para a seleção seqüencial, pois ela permite examinar a contribuição de cada variável independente para o modelo de regressão sendo que cada variável é considerada para a inclusão antes do desenvolvimento da equação. A variável independente com a maior contribuição é acrescentada em um primeiro
momento. Variáveis independentes são então selecionadas para inclusão, com base em sua contribuição incremental sobre as variáveis na equação. Começa com um modelo de regressão simples no qual a variável mais fortemente correlacionada com a dependente é usada. Examina os coeficientes de correlação parcial para encontrar uma variável adicional que explique a maior parte estatisticamente significante do erro da primeira equação. Recalcula a equação de regressão usando as duas variáveis independentes sendo então examinando o valor parcial de F. Esse procedimento continua examinando todas as variáveis independentes no modelo para determinar se alguma deveria ser incluída na equação;
• Estimação Forward e Backward – Processo de tentativa e erro para encontrar a melhor estimativa de regressão, enquanto o Forward vai adicionado as variáveis uma a uma e verificando a equação, o método Backward computa a equação com todas as variáveis e depois vai eliminando as que não contribuem significativamente como o processo. A principal diferença da abordagem
Stepwise em relação aos procedimentos Forward e Backward é a sua habilidade
em acrescentar ou eliminar variáveis em cada estágio. Uma vez que uma variável é acrescentada ou eliminada nos esquemas de Forward e Backward não há como reverter à ação em um estágio posterior.
Método Abordagem Combinatória – É um processo de busca generalizado em todas as possíveis combinações de variáveis independentes. O procedimento mais conhecido é a regressão em todos os possíveis subconjuntos, a qual é exatamente como o nome sugere. Todas as possíveis combinações das variáveis independentes são examinadas e o conjunto de variáveis que melhor se adequar é identificado.
3.6.2 Avaliação da Significância Estatística do Modelo
Para avaliação da significância do modelo estatístico inicia-se testando a hipótese que a quantia de variação explicada pelo modelo de regressão é maior que a variação explicada pela media, ou seja, que R² é maior que zero, sendo a estatística F usada para esse fim. Se o
tamanho da amostra for pequeno, o erro amostral poderá ser muito grande para se dizer, com um grau de certeza necessário, que o coeficiente não é igual à zero.
Significância do modelo geral: Para testar a hipótese de que a quantia de variação é maior que a variação explicada pela média (ou seja, que R² é maior que zero), usa-se a estatística F, onde: . totais erros os iberdade d Graus de l totais erros dos quadrados dos o a regressã iberdade d Graus de l erros dos quadrados dos F a Estatístic
∑
∑
=Dois aspectos importantes sobre essa razão devem ser observados:
• Cada soma de quadrados dividida por seus graus de liberdades apropriados é simplesmente a variância dos erros de previsão;
• Se a razão da variância explicada pela variância de referência for alta, a variância estatística da regressão deve ser de valor significante na explicação da variável dependente.
Também se sabe da influência do tamanho da amostra no valor de R². Para resolver isto têm sido proposta várias normas práticas em que deve ocorrer uma variação de 10 a 15 observações por variável independente. Como parte integrante dos softwares de regressão, encontra-se o cálculo do R² ajustado, esse coeficiente deve ser analisado igualmente ao coeficiente de determinação, porém o valor de R² ajustado, leva em consideração o número especifico de variáveis independentes e o tamanho da amostra em que cada modelo é baseado, sendo particularmente útil na comparação entre equações de regressão.
Os testes de significância de coeficiente de regressão fornecem uma avaliação empírica de seu verdadeiro impacto. Apesar desse não ser um teste de validade, ele determina se os impactos representados pelos coeficientes são generalizáveis a outras amostras dessa população.
3.6.3 Identificação de Observações Influentes
Até agora, a pesquisa foi concentrada na identificação de padrões gerais no conjunto inteiro de observações. Agora se desvia a atenção para observações individuais, com o objetivo de encontrar quais observações estão fora dos padrões gerais do conjunto de dados ou que influenciam fortemente nos resultados da regressão. Deve ser lembrado que essas observações não são necessariamente ruins, no sentido que devam ser eliminadas. No entanto deve-se primeiramente identificá-las e avaliar seu impacto antes de seguir adiante. As observações influentes são de três tipos básicos: Atípicas, Pontos de alavancagem e Influentes. As observações atípicas são identificadas apenas em relação a um modelo especifico de regressão. As observações atípicas tem sido tradicionalmente a única forma de observação influente considerada em modelos de regressão.
Os pontos de alavancagem são observações diferentes das demais, com base em seus valores para variáveis independentes. Seu impacto é particularmente perceptível nos coeficientes estimados para uma ou mais variáveis independentes. Finalmente, as observações influentes é a categoria mais ampla, incluindo todas as observações que tem um efeito desproporcional sobre os resultados de regressão. As observações influentes incluem tanto as observações atípicas e os pontos de alavancagem.
Os procedimentos para identificar todos os tipos de observações influentes são muito numerosos e ainda não muito bem definidos. Todos os softwares fornecem uma análise de resíduos com os quais, aqueles com grandes valores podem ser facilmente identificados. As observações influentes, as atípicas e os pontos de alavancagem são baseados em quatro condições:
• Um erro em observações ou entrada de dados;
• Uma observação valida, mas excepcional, explicável por uma situação extraordinária;
• Uma observação excepcional sem explicação convincente;
• Uma observação comum em suas características individuais, mas excepcional em sua combinação de característica.
Para análise final, tenta-se identificar observações atípicas que sejam influentes e determinar se elas deveriam ser excluídas ou não. Apesar de procedimentos mais detalhados
estarem disponíveis para identificar observações atípicas, usa-se nessa pesquisa os resíduos para identificar observações atípicas.