2.3.1. Análise descritiva.
Esta etapa da análise estatística teve como objetivo descrever e analisar os dados de uma amostra dos alunos da 8ª série do EF que fizeram a avaliação de Ciências do SAEB de 1999. Posteriormente foi analisado se as diferenças encontradas entre as proficiências médias eram significativas, para esta verificação foi aplicado testes estatísticos paramétricos. Destes testes, foi utilizado o teste t de Student para verificar se a diferença entre duas proficiências médias eram significativas. A análise de variância (ANOVA) foi utilizada para verificar se a diferença entre mais de duas médias eram significativas. Também foi utilizado o teste não- paramétrico U Mann-Whitney para testar se duas amostras independentes foram retiradas de populações com médias iguais. A correlação de Pearson foi utilizada para verificar a existência de uma relação entre duas variáveis. O nível de significância mínimo adotado foi de 5% (BRUNI, 2009; FIELD, 2005/2009; FONSECA; MARTINS, 1996).
2.3.2. Análise do modelo estatístico – aplicação do método CHAID (Chi – square
Automatic Detector).
O método CHAID foi proposta por Kass (1980) e tem como objetivo realizar divisões lineares ótimas para cada variável explicativa a partir da elaboração de tabelas de contingências baseadas no cálculo do qui-quadrado. Este teste é feito para se determinar a verossimilhança17 entre as freqüências observadas e esperadas e contrastar a associação entre as categorias das variáveis. Posteriormente os dados são divididos a partir variável que realça a melhor classificação, isto é, aquela com um valor de qui-quadrado mais elevado. Cada um dos subgrupos é novamente analisado para gerar novas divisões em cumprimento de algumas de suas regras. Com a aplicação deste método, procura-se uma menor taxa de erro e de
17 Probabilidade de obter um conjunto de observações dado os parâmetros de um modelo ajustado a essas observações (FIELD, 2005/2009).
complexidade, tornando-se fácil de interpretar (PESTANA; GAGEIRO, 2009; SANTÍN, 2006).
Segundo Pestana e Gageiro (2009, p.366), o CHAID é “[...] um método exploratório para estudar as relações entre uma variável de resposta e um conjunto de variáveis explicativas que podem interagir entre si”. De acordo com Kass (1980), o método CHAID visa encontrar uma classificação da população em grupos capazes de descrever da melhor maneira possível a variável dependente. O CHAID permite obter árvores de decisão com múltiplas categorias, segmenta a amostra de acordo com as categorias de melhor preditor, procura uma árvore com a menor taxa de erro, menor complexidade com pouco nós terminais e adequado aos objetivos da pesquisa, trabalha com tabelas de contingência e efetua o teste do x2 (qui-quadrado) em diferentes etapas do processo e recorre a regras estatísticas que travam o crescimento da árvore, tornando mais simples a interpretação dos resultados.
De acordo com Pestana e Gageiro (2009), o método CHAID é aplicado da seguinte forma:
1. Inicialmente a árvore de decisão é representada por uma caixa, designada por nó 0, que descreve a amostra e identifica as categorias da variável de resposta em termos do seu número de elementos e da sua porcentagem.
2. Ocorre a partição da árvore de decisão por ordem decrescente da importância das variáveis na explicação.
3. A variável mais significativa define a primeira partição da amostra. Para cada uma das categorias é avaliada a possibilidade de subdivisão noutras variáveis explicativas.
4. As variáveis explicativas são comparadas e as mais significativas são escolhidas. Os dados são subdivididos de acordo com a variável explicativa mais significativa (KASS,1980). 5. A variável explicativa sofre subdivisões, que formam nós, que sofrem ramificações até
que novas variáveis não acrescentem mais informações significativas à variável de resposta, obtendo-se um nó terminal, que se forma quando cessa o crescimento do ramo. 6. A variável explicativa, quando não sofre subdivisão forma um nó terminal que encerra o
crescimento do ramo.
7. A segmentação termina quando todos os grupos são terminais, e quando não existem mais preditores significativos, o que acaba impedindo o crescimento da árvore.
Segundo Kass (1980) o método CHAID possui as seguintes vantagens para a análise de grandes quantidades de dados:
1. O método CHAID é poderoso para a partição de grande quantidade de dados e para formar grupos mais homogêneos, a partir de variáveis explicativas mais significativas.
2. O CHAID analisa todos os cruzamentos possíveis dos dados, rejeita os cruzamentos não significativos, e concentra suas subdivisões em cruzamentos potencialmente significativos para a pesquisa.
3. Os resultados obtidos utilizando o CHAID são apresentados de forma gráfica sendo de fácil interpretação e leitura.
O método CHAID vai permitir descrever e compreender as relações entre a variável dependente e as variáveis independentes utilizadas para a construção do modelo estatístico. Esta análise também vai possibilitar identificar variáveis preditoras para a proficiência média em Ciências. Para que este objetivo seja alcançado foi feito uma ampla revisão bibliográfica buscando identificar em pesquisas empíricas da área de avaliação educacional as características dos alunos e das escolas que se relacionam significativamente com o desempenho escolar. As variáveis independentes selecionadas dos alunos e escolas foram agrupadas nos quadros a seguir.
Quadro 2 - Composição das variáveis utilizadas no modelo estatístico para analisar as relações entre as variáveis relacionadas aos alunos
Variáveis Componentes
Dependente Resultados da proficiência em Ciências do SAEB de 1999
Independentes
Rede de ensino Pública
Particular
Caracterização
sociodemográfica Gênero Etnia
Capital econômico Nível socioeconômico
Capital social Número de pessoas que o pai/mãe conhece (diretor, professor, amigo e pai de amigo).
Capital cultural Recursos culturais disponíveis em casa (quantidade de livros, revistas em quadrinhos, possui livros, jornal ou revistas de informação geral, revistas sobre esportes, música, automóveis etc)
Uso de computador Sabe usar computador? Usa computador na escola? Faz curso de computação?
Motivação Gosta da disciplina?
Prática de estudo Faz lição de casa?
Trajetória escolar Você já repetiu de ano? Quantas vezes? Você trabalha?
Quadro 3 - Composição das variáveis utilizadas no modelo estatístico para analisar as relações entre as variáveis relacionadas às escolas
Variáveis Componentes
1. Rede de ensino Pública (Estadual e Municipal)
Particular
2. Recursos escolares Instalações físicas
Serviços oferecidos pela escola
3. Organização e gestão da escola Monitoramente do progresso escolar: recuperação de notas.
Liderança pedagógica. Liderança administrativa
4. Clima acadêmico Informações sobre a turma
5. Formação e salário docente Formação profissional Salário docente
6. Ênfase pedagógica Atividades didáticas
Recursos pedagógicos
Fonte: Elaboração própria.
2.3.3. Análise de agrupamentos (cluster analysis).
A análise multivariada em particular, a análise de agrupamentos (cluster analysis) foi aplicada para se entender o relacionamento entre a proficiência média de Ciências dos alunos da 8ª série do EF com as escolas e com os indicadores de desigualdade econômica e social (PIB, IDH e índice de Gini) dos estados brasileiros.
A análise multivariada refere-se aos métodos estatísticos que simultaneamente analisam múltiplas medidas sobre cada indivíduo ou objeto em investigação. Neste estudo é empregado uma das técnicas, a análise de agrupamentos cujo objetivo básico é agrupar objetos semelhantes segundo suas características.
A análise de agrupamentos é um conjunto de técnicas estatísticas cujo objetivo é agrupar objetos segundo suas características comuns, formando agrupamentos homogêneos. Este procedimento divide os elementos de uma amostra em grupos de modo que a variabilidade das informações seja mínima dentro dos grupos e máxima entre os grupos. Este procedimento é uma ferramenta para a exploração e a análise de dados que visa à triagem de diferentes objetos em grupos, de uma forma que os objetos em cada agrupamento tendam a ser semelhantes entre si, porém diferentes dos demais objetos dos outros agrupamentos. Os agrupamentos obtidos devem apresentar tanto uma homogeneidade interna (dentro de cada
agrupamento), como uma grande heterogeneidade externa (entre agrupamentos) (CARVALHO et al., 2009).
2.3.4. Análise fatorial.
A análise fatorial é uma técnica multivariada que tem como objetivo descobrir e analisar a estrutura de um conjunto de variáveis inter-relacionadas de modo a construir uma matriz de correlações entre as variáveis. Em princípio, se duas variáveis estão correlacionadas, e se apresentam coeficientes de correlação altos entre as variáveis sugere que essas variáveis podem estar medindo os mesmo fatores (variável latente)18 (FIELD, 2005/2009).
A análise fatorial foi utilizada para identificar as correlações entre os grupos agregados formados pela análise de cluster e a proficiência média e os indicadores de desigualdade econômica e social (PIB, IDH, índice de Gini).
2.4. O SOFTWARE ESTATÍSTICO – O STATICAL PACKAGE FOR SOCIAL SCIENCE