Student og mor – små inntekter, store utgifter

Hair et al. (1998) consideram que a análise dos dados é uma etapa fundamental que deve preceder a análise multivariada. O autor defende que antes da aplicação de uma técnica multivariada o pesquisador tem diversos insights sobre a relação entre as variáveis e características dos dados. Os passos para os exames dos dados são os seguintes: a) exame gráfico dos dados; b) análise de missing data; c) identificação de outliers; e d) análise de dados multivariada.

6.2.1 Exame Gráfico Univariado

Pestana e Gageiro (2000) afirmam que, na análise univariada, a variável deve ser tratada de forma isolada. Hair et al. (1998) consideram que o ponto de partida para se analisar a natureza de qualquer variável está em caracterizar o formato da distribuição de frequências de seus valores. Segundo Bisquerra et al. (2004), essa análise tem grande significância, pois possibilita identificar a presença de erros a corrigir na base de dados, pois, caso contrário, poderão invalidar todo o trabalho.

Hair et al. (1998) afirmam que é muito importante caracterizar a distribuição das variáveis a fim de obter a plena compreensão. Diversos autores sugerem o uso de histogramas, possibilitando a representação gráfica univariada, refletindo a frequência de ocorrências dentro de uma categoria de dados. No Apêndice C são demonstrados os respectivos histogramas, bem como a distribuição de resultados.

6.2.2 Missing Data

Segundo Nunes (2007), a característica mais importante da análise de dados faltante é que ela depende de suposições que não podem ser testadas. Hair et al. (1998) consideram um dado perdido como um acontecimento externo ao respondente, resultante de erro na entrada de dados, falha na coleta dos dados ou provocado pelo próprio respondente, quando há recusa em dar a resposta. Cohen (2003) defende que um percentual de missing data até 10% não seria considerado alto. Segundo Hair et al. (1998, p. 48), pode-se considerar como erro amostral pelo fato da amostra ser probabilística. Nesta pesquisa não houve a ocorrência de

de uma eventual exclusão de variáveis da base de dados, conforme estatística univariada no Apêndice D.

6.2.3 Outliers

Barnett e Lewis (1994) conceituam outliers como observações que parecem ser inconsistentes com o resto do conjunto de dados. Cohen (2003) define outliers como valores que parecem desviar-se acentuadamente dos outros membros da amostra em que eles ocorrem. Para Hair et al. (1998) é necessário analisar o contexto da pesquisa, bem como a proveniência das informações, para caracterizar se os outliers são problemáticos ou benéficos. O autor considera os outliers benéficos quando indicam características da população que não seriam identificadas mediante uma análise; e enquanto são considerados problemáticos quando não representam a população, sendo contrários aos objetivos da análise e podendo provocar distorções das análises estatísticas.

Hair et al. (1998) classificam outliers nas seguintes classes: a) proveniente de erro no processo de gravação dos dados; b) resultante de um evento sobre o qual o pesquisador tem explicação; c) como resultado de um evento sobre o qual o pesquisador não tem explicação; e d) quando representam valores únicos na variável medida, mesmo estando nos limites possíveis da mesma. Hair et al. (1998) afirmam que para o pesquisador identificar os outliers é necessário o uso de perspectivas estatísticas univariadas e multivariadas.

6.2.4 Detecção Univariada

Hair et al. (1998) consideram que a detecção univariada serve para a identificação dos

outliers por meio da análise da distribuição das observações, envolvendo os casos que estão

fora do intervalo de distribuição. Os autores defendem que para amostras maiores de 80 observações é necessário definir limites para o desvio padrão, normalmente entre 3 e 4, exigindo que o pesquisador considere como outliers observações realmente discrepantes. Na amostra sob análise, nenhuma variável apresentou valor de desvio padrão superior a 3, apresentando valores entre os limites aceitáveis de 0,806 a 1,147, conforme pode ser visto no Apêndice C.

6.2.5 Detecção Multivariada

Kendall (1957, p. 65) conceitua a análise multivariada como um segmento da análise estatística, do qual a relação entre grupos de variáveis dependentes e coletadas sobre o mesmo indivíduo é verificada. A análise multivariada envolve mais do que duas variáveis, fazendo-se necessário caracterizar objetivamente a medida da posição multidimensional de cada observação relativa para alguns pontos comuns (HAIR et al., 1998, p. 65-66). Hair (2005) et al. consideram que o método de análise multivariada tem como objetivo otimizar a interpretação de grandes conjuntos de dados.

Vários autores afirmam que com o uso da medida D² de Mahalanobis em análises multivariadas é possível identificar os outliers. Com essa medida é possível avaliar a posição de cada observação comparada com o centro de todas observações num grupo de variáveis. (Hair et al., 1998). Foram encontrados nove outliers multivariados, correspondendo a 8,12% dos casos e tendo por limite os valores críticos para χ² com p < ,001. Não foram encontradas características que pudessem justificar a exclusão desses outliers.

6.2.6 Teste de Análise Multivariada

O teste de análise multivariada consiste em realizar os exames dos dados com o objetivo de testar as suposições subjacentes, que se justificam pela complexidade das relações, devido ao grande número de variáveis que ampliam as distorções quando as suposições são violadas. Para Hair et al. (1998), a complexidade das análises e dos resultados podem esconder os sinais de violação dessas suposições, aparentes nas análises univariadas. As suposições referem-se à normalidade, homoscedasticidade e linearidade.

6.2.6.1 Normalidade

Hair et al. (1998) afirmam que os dados devem ter uma distribuição que seja correspondente a uma distribuição normal. Segundo Tabachnick e Fidell (2001, p. 462), a normalidade multivariada é uma representação que as variáveis independentes formam amostras que foram aleatoriamente escolhidas da população e que a distribuição de seus valores tem proximidade de uma distribuição normal.

A distribuição normal é considerada por Pestana e Gageiro (2000, p. 182) uma premissa para o uso de muitos testes estatísticos e para a aplicação de várias estatísticas descritivas. Os autores consideram o histograma como um teste de diagnóstico mais simples para uma verificação visual, comparando os valores de dados observados com uma distribuição aproximadamente normal.

Segundo Tabachnick e Fidell (2001, p. 73), para o cálculo da normalidade deve-se considerar dois componentes que são os skewness e o kurtosis. Bisquerra et al. (2004, p. 49) conceitua os skewness como “assimetria com a característica de gráficos ou de curvas em que a maioria dos valores não se concentra no meio mas em uma extremidade”. As kurtosis são o grau de achatamento da parte central de uma distribuição.

A análise da distribuição das frequências de todas as variáveis apresentou assimetria positiva, o que significa que as distribuições tiveram um prolongamento para a direita de uma hipotética curva normal, e, consequentemente, um desvio à esquerda. Sendo assim, fica descaracterizada a hipótese de normalidade para a distribuição de frequência das variáveis métricas observadas. Tal condição fora também confirmada pelo teste K-S de aderência à normalidade, onde se verificou que o nível de significância de cada variável foi inferior ao limite estabelecido de 0,05.

6.2.6.2 Homoscedasticidade

Para Bisquerra et al. (2004, p. 83), a homoscedasticidade significa igualdade de variâncias entre as variáveis, cuja demonstração, supõe que as variáveis dependentes são representadas por níveis iguais de variância ao longo do domínio das variáveis independentes. Para Hair et al. (2005), a homoscedasticidade é uma premissa relacionada primariamente às relações de dependência entre variáveis, quando para cada valor da variável independente uma mesma variância deve ocorrer na variável dependente. Vários autores defendem que para diagnosticar a homoscedasticidade podem ser utilizados gráficos ou testes estatísticos.

Hair et al. (1998) afirmam que na maioria das vezes a não homoscedasticidade se deve a não normalidade de uma ou mais variáveis. Na medida em que se corrige a não normalidade se corrige a dispersão (variância) divergente identificada.

6.2.6.3 Linearidade

Hair et al. (2005, p. 221) informam que a linearidade das variáveis é uma suposição implícita, devido as relações não lineares não serem refletidas na função discriminante, a menos que as transformações específicas de variáveis sejam executadas para representar efeitos não lineares.

Tabachinick e Fidell (2001, p. 77) confirmam que a linearidade entre duas variáveis é avaliada realizando a análise em um gráfico de dispersão bivariada (TABACHINICK e FIDELL, 2001, p. 77). Todavia, pela existência de 25 variáveis nessa pesquisa, seria bastante oneroso realizar a comparação de variáveis de duas em duas. Sendo assim, buscou-se avaliar a relação entre as variáveis com maior proximidade de aderência à normalidade e as que distanciam desta aderência.

In document Student eller mor? Ja takk, begge deler (sider 100-113)