• No results found

Introduction

Ainda que não representativo dado o pequeno tamanho da amostra, este trabalho, permite explorar fatores que apontem para a probabilidade de um indivíduo egresso do Ensino Médio público de São Paulo entre 2007 e 2009 buscar Ensino Superior. Como a variável de interesse só pode variar entre “0” (jamais o indivíduo fez um vestibular) e “1” (fez ao menos um vestibular), assumindo que a participação num vestibular reflita a decisão pelo Ensino Superior, o modelo de regressão deve ser logístico. Wooldridge (2006) destaca a disponibilidade de recursos computacionais e softwares para um uso mais recorrente da regressão logística. Lembra o autor que “as estimativas dos coeficientes, seus erros-padrão e o valor da função log-verossimilhança são descritos por todos os programas econométricos que executam logit (...)” (idem, p. 523) e complementa: “Os coeficientes dão os sinais dos efeitos

56 Mesmo não sendo esta a variável de interesse neste trabalho, cabe destacar que, em termos médios, entre os

dez primeiros examinados pelo Saresp, metade está cursando o Ensino Superior, de um total de treze graduandos. Entre a metade da amostra (26 indivíduos) com pior desempenho, quatro cursam Ensino Superior.

parciais de cada xj sobre a probabilidade de resposta, e a significância estatística de xj é

determinada pela condição de podermos rejeitar H0: j = 0 a um nível de significância

suficientemente pequeno” (WOOLDRIDGE, 2006, p. 524).

Um trabalho com objetivo exploratório permite a adoção do chamado modelo irrestrito que, segundo Wooldridge (2006, p. 657), “em testes de hipóteses” é “o modelo no qual não foi colocada nenhuma restrição em seus parâmetros”. O autor também aceita como válida a adoção da significância prática, pela “importância prática ou econômica de uma estimativa, que é indicada por seu sinal e magnitude, em oposição à sua significância estatística” (idem, p. 661).

Para Field (2009, p. 221), em uma regressão logística constituindo uma “regressão múltipla, mas com uma variável de saída dicotômica e variáveis previsoras contínuas ou categóricas”, é possível “prever a qual de duas categorias é provável que uma pessoa pertença dadas certas informações”. O autor ressalta que nas ciências sociais e nas pesquisas médicas o uso da regressão logística se mostra “ferramenta bastante útil” para se definir procedimentos e políticas (idem, p. 222).

Na regressão linear múltipla, a variável dependente Y é prevista por uma combinação de variáveis previsoras multiplicadas pelo respectivo coeficiente de regressão:

Y = bo + b1X1 + b2X2 + ... + b X + (1)

Onde bo é o intercepto, b1, b2 e b são os coeficientes de regressão da cada variável independente (X1, X2 e X , respectivamente) e é o termo de erro.

Já a regressão logística prevê a probabilidade de Y ocorrer conhecidos os valores de X , em vez do valor de Y dado X . Na regressão logística, em vez de prever o valor da variável Y a partir de previsores Xs, se prevê a probabilidade de Y ocorrer conhecidos os valores dos Xs. (FIELD, 2009, p. 222).

A equação da regressão logística guarda semelhança com a linear (1) transformada para a obtenção da probabilidade.

= (2)

Onde é a base dos logaritmos naturais. Lembra Field (2009) que “os demais coeficientes da equação formam uma combinação linear muito semelhante à regressão simples” (p. 223).

Sendo P(Y) a probabilidade de Y ocorrer, é a base dos logarítimos naturais e os demais coeficientes da equação formam uma combinação linear semelhante à regressão múltipla (idem, p. 222).

Como neste trabalho a variável dependente é do tipo dicotômica, a regressão logística mantém, nas palavras de Field (2009, p. 223), “a forma do relacionamento linear enquanto o próprio relacionamento em si não é linear” expressando “uma equação de regressão linear múltipla em termos logarítmicos e dessa forma resolve o problema da violação da hipótese de linearidade”.

Sendo a variável dependente binária, a regressão logística é, segundo Prearo (2008, p. 38), bastante difundida porque permite ao investigador superar restrições presentes em outras técnicas de predição: ao contrário das outras técnicas multivariadas, a regressão logística “não assume linearidade das relações, não assume que o erro seja normalmente distribuído, não faz exigência quanto à normalidade da distribuição multivariada (...) além de também relaxar a premissa da homoscedasticidade”.

Um alerta do autor (2008, p. 39) aponta para as restrições impostas pelo modelo logístico: a não existência de multicolinearidade57, a ausência de observações atípicas e o número mínimo de dez casos para cada variável explicativa. Na amostra dos casos, especial atenção foi necessária quanto ao número de pessoas vivendo no mesmo domicílio. A existência de um dentre 52 casos com valores tão atípicos (nove pessoas em 2007 e quinze em 2010) afetaria sobremaneira as estimações dos coeficientes de variação, razões de chance e níveis de significância.

O valor resultante num modelo logístico, sendo uma probabilidade que varia entre 0 e 1, permite que se escolha como modelo aquele que resultar num Y mais próximo do valor observado, estimado pela máxima verossimilhança. A verossimilhança é “baseada na soma das probabilidades associadas com a saída real e prevista” (FIELD, 2009, p. 224). Equivalente à soma dos resíduos dos quadrados, na regressão linear, a verossimilhança-log indica “quanta informação não explicada ainda existe após o modelo ter sido ajustado”. Assim, prefere-se um modelo com menor ao de maior valor.

Mais variáveis preditoras sempre melhoram o R Quadrado do modelo de regressão.58 No entanto, amostras de pequeno tamanho refletem os graus de liberdade, limitando o número

57 Quando as variáveis independentes possuem relação linear exata ou muito próximas.

58 No caso da regressão logística, a alternativa ao R quadrado são os R quadrado de Cox & Snell ou, sua variante,

de variáveis explicativas a ser incorporadas. Field (2009) cita Green (1991), Miles e Shevin (2001) e Cohen (1998) para mostrar um panorama do que a literatura oferece para compor um gráfico relacionando número de previsores com o tamanho da amostra em relação aos três tipos apontados por ele de efeito esperado: grande, médio ou pequeno. Field (2009, p. 181-2) chama de “efeito grande” quando o pesquisador tem razões prévias suficientes para esperar que os previsores prevejam bem a saída. À luz do que apontou Field, a expectativa de um efeito grande com uma amostra de 52 casos permitiria tomar entre cinco e seis previsores.

O uso de softwares estatísticos permite estabelecer diferentes parâmetros e métodos para a escolha dos previsores do modelo na regressão linear. Os softwares executam um teste chamado de estatística de Wald59 (equivalente ao teste t na regressão linear), para verificar se o coeficiente de variação de cada previsor é significativamente diferente de zero. Segundo Field (2009, p. 182), “o mais importante para a interpretação da regressão logística é o valor da ‘Exp B’ ”. Trata-se de “um indicador das probabilidades resultantes da mudança de uma unidade no previsor,[...] similar aos coeficientes b da regressão” que “não pode ser confundida com a probabilidade” uma vez que é um cálculo das chances de ocorrência derivado da probabilidade. Em outras palavras, e adaptando para o interesse desse estudo, o Exp B apontará a chance de um indivíduo estar entre os que buscaram o Ensino Superior calculado pela probabilidade de ter buscado dividida pela probabilidade de não ter buscado.

Dentre as opções dos métodos de regressão logísticas estão o enter, os métodos passo a passo, que inclui o passo a passo para a frente, ou stepwise forward, com variantes de Wald, condicional ou razão de verossimilhança, e passo a passo para trás, stepwise backward, com as mesmas variantes do para a frente. Studennund e Cassidy (1987, apud FIELD, 2009) apontam a melhor adequação do método enter quando se quer testar teorias uma vez que as técnicas passo a passo, sujeitas a variações aleatórias, “raramente fornecem resultados replicáveis se o modelo for novamente replicado com a mesma amostra” (p. 227- 8). No modelo passo a passo para a frente, a computação, seguindo os critérios especificados de significâncias, escolhe as variáveis com maiores escores. O problema desse modelo é desprezar interações importantes entre variáveis que poderiam tornar o modelo mais consistente. Na última alternativa, o método para trás, a computação se inicia com todos os previsores incluídos e vai testando quais poderão ser removidos “sem causar um efeito substancial no grau de aderência do modelo aos dados observados” (FIELD, 2009, p. 228). O

59 Conforme FIELD (2009), a estatística de Wald é calculada basicamente pelo coeficiente de regressão dividido

pelo erro padrão associado. Alerta Field que um cuidado adicional é necessário porque “quando o coeficiente de regressão (b)é grande, o erro padrão tende a ficar inflacionado, resultado em estatística Wald subestimada”.

método, segundo Field, deve ser escolhido dependendo do tipo de pesquisa que se está fazendo. Para trabalhos exploratórios é possível se aproveitar das vantagens do método passo a passo para trás, em que “a causalidade não é de interesse e você quer somente achar um modelo para ajustar os dados” (MENARD, 1995; AGRESTI; FINLAY, 1986 apud FIELD, 2009). A seleção para trás diminui o risco de eliminar variáveis que interajam com outras, reduzindo o risco de cometer o Erro do Tipo II60.