Comparisons within own results - Signature processing

Signature processing

6.1 Comparisons within own results

Nessa seção serão descritos os procedimentos de análise de dados adotados nos Estudos 1, 2 e 3 da presente pesquisa. O texto que se segue apresenta primeiramente os procedimentos dos estudos 1 e 2 (análises exploratórias, descritivas e de validação) e em seguida do Estudo 3 (análises exploratórias, não paramétricas e de regressão logística).

Os dados deste estudo foram coletados por meio do software Excel for Windows. Dessa forma, todos os dados foram, após a coleta, importados para o programa SPSS 13.0 para que pudessem ser realizadas as análises. Não foram encontrados problemas de importação ou inconsistência dos dados em nenhum dos arquivos de dados.

Posteriormente à finalização da etapa de coleta de dados, procedeu-se à construção de arquivos de dados específicos para as análises dos dois estudos. Para o Estudo 1 e 2 foram gerados quatro arquivos de dados específicos: dois para a validação da escala de Comportamentos e Atitudes relacionados a cursos a distância (um arquivo de dados completo e outro com a exclusão de casos extremos univariados) e dois para a validação da escala de Valor Instrumental do Treinamento (um arquivo de dados completos e outro com a exclusão de casos extremos univariados). Finalmente, para o Estudo 3, foram utilizados três arquivos de dados: um completo e outro sem a presença de casos extremos uni e multivariados, para verificar se esses casos alteram as análises de regressão.

Desta forma, e com os arquivos de dados previamente definidos e separados, procedeu-se às análises estatísticas exploratórias e descritivas dos dados (freqüências, medidas de tendência central e de dispersão). Nesta etapa inicial, a utilização de estatísticas exploratórias e descritivas visou a análise inicial das distribuições de freqüência das respostas e a ocorrência de casos omissos no arquivo. Observou-se, também, a presença de casos extremos (outliers) univariados, avaliando-se a influência dos mesmos no padrão das respostas obtidas. Notou-se que, nos resultados de ambos os estudos (Estudos 1, 2 e 3), houve diferenças significativas na análise com e sem casos extremos, optando-se pelas soluções sem esses casos extremos.

Com relação aos dados omissos, casos com mais de 50% dos itens em branco foram excluídos. Foi verificada a magnitude dos dados omissos, considerando até 5% como aceitável. Quando o número de casos omissos era superior a 5% em qualquer um dos itens da escala, foram realizadas Missing Value Analyses, a fim de verificar se os dados missing eram aleatórios ou sistemáticos. No caso de missing sistemático, após análise dos motivos desta ocorrência, optou-se pelo tratamento listwise para os casos omissos nas análises fatoriais e de regressão, considerado por Pasquali (2002) o mais honesto tratamento dos dados omissos.

A fim de garantir maior rigor científico, foram realizadas análises com tratamento de dados pairwise para os dados omissos, para comparação dos dados. Nestes casos, apesar do número de casos observados ser maior, foi percebida que mais da metade das correlações encontravam-se abaixo de 0,30, os valores próprios eram mais baixos e a porcentagem de variância explicada também. Dessa forma, encontrou-se aqui mais uma justificativa para a opção listwise, mesmo com um número menor de variáveis na análise.

Para a identificação de casos extremos univariados foi realizada a transformação das variáveis em escore padronizado (score Z), conforme sugerido por Tabachnick e Fidel (2001). Adotou-se o critério de exclusão das respostas iguais ou superiores a 3,29 (p<0,001, two-tailed). Os outliers univariados foram localizados com a utilização de gráficos box plot.

A seguir, foram realizadas análises estatísticas mais específicas, a fim de atender aos objetivos específicos desta pesquisa relacionados à validação das escalas. Primeiramente, foi realizada a análise da estrutura empírica das mesmas, com a análise dos seus componentes principais (Principal Components - PC), para estimar o número de fatores da matriz, análise de multicolinearidade e da fatorabilidade da matriz de correlações. Foram analisados os valores próprios (valores superiores ou iguais a 1, critério de Kaiser), distribuição desses valores próprios - scree plot (inspeção visual sobre o local da inclinação da reta passa de acentuada para horizontal) e interpretabilidade do fator. Além disso, utilizou-se também a análise paralela de Horn, conforme sugerido por Laros (2002), na qual compara-se os valores empíricos, fornecidos pela PC, e os valores aleatórios, obtidos com o auxílio do software RenEign, que relaciona a quantidade de variáveis e o tamanho da amostra.

Pesquisas indicam que o procedimento da análise paralela de Horn é um dos mais precisos, estando correto em 92% dos casos. No entanto, em algumas pesquisas,

quando essa análise mostrou-se errada, apresentou uma leve tendência a superestimar o verdadeiro número de fatores em 66% das vezes, aproximadamente (Laros, 2002).

Para verificar problemas de alta correlação entre as variáveis da matriz de correlação (multicolinearidade e singularidade) foi utilizado o critério de que as correlações entre as variáveis não poderiam estar acima de 0,90.

A fim de obtermos e analisarmos as estruturas fatoriais das escalas utilizadas, procedeu-se à análise fatorial com o método de extração dos fatores e fatoração dos eixos principais (Principal Axis Factoring - PAF). Utilizou-se, primeiramente, o método PAF, com rotação oblíqua (direct oblimin), a fim de verificar as correlações entre os fatores, no caso de haver mais de um fator na escala. Essa opção de rotação foi escolhida, seguindo recomendação de Pasquali (2002), que afirma que a mesma é sempre adequada nas ciências psicossociais, pois a mesma não força a dependência de fatores e sim permite, ao passo que a rotação ortogonal é imperialista. Além disso, a análise teórica do instrumento, sugere uma rotação obliqua ao invés de ortogonal. Os seguintes critérios foram utilizados para facilitar a decisão referente à quantidade de fatores a serem extraídos de cada instrumento: valores próprios superiores a 1; análise da distribuição dos valores próprios (scree plot); porcentagem da variância explicada com, no mínimo, 3% de explicação para cada fator extraído; determinação de cargas e escores fatoriais superiores a 0,30; análise da consistência interna que indica a covariância entre o fator e o item (alpha de cronbach) e, finalmente, interpretabilidade das soluções encontradas.

Pasquali (2002), ao descrever passos de identificação e análise de fatores, aponta que cada fator deve apresentar significado inserido nas teorias que sustentam a pesquisa. Assim sendo, os fatores devem ser verificados em termos de sua estabilidade, interpretação e produção de um escore útil para uso em futuras pesquisas. Interpretar um fator significa descobrir a dimensão teórica subjacente ao grupo de variáveis que se congregam neste fator, ou seja, implica em identificarmos o traço latente que pode ser considerado a causa de porquê estas variáveis que se agrupam estejam relacionadas (Pasquali, 2002).

Foi feita análise de distribuição e simetria das variáveis, para verificar a normalidade, no entanto, não foram realizadas transformações das variáveis nos casos de índices altos de assimetria (skewness) e achatamento (kurtosis). Tal decisão deveu-se por dois motivos: (1) experiências anteriores não mostraram diferenças nas análises com ou sem a transformação das variáveis (Lacerda, 2002; Meneses, 2002 e Tamayo, 2002);

(2) Pasquali (2002) afirma que a normalidade não é um grande problema para a análise fatorial, uma vez que ela é robusta e suporta desvios da normalidade, não sendo absolutamente necessária.

Para a verificação da adequação do tamanho da amostra às análises dos componentes principais (PC) e às análises dos eixos principais (PAF), foi adotado o critério sugerido por Pasquali (2002) de pelo menos 10 respondentes por variável, mais especificamente qualquer valor entre 5 e 10 casos. Em todos os arquivos, esse critério foi atendido.

Por fim, com o intuito de investigar o relacionamento entre as variáveis constitutivas do modelo de pesquisa, foram realizados procedimentos de regressão logística, visto que a variável critério é categórica. O objetivo foi analisar o relacionamento entre as variáveis, além de identificar as variáveis com melhor poder preditivo de evasão.

Wuensch (2006) afirma que a regressão logística deve ser utilizada para predizer uma variável dicotômica, a partir de várias variáveis preditoras. Alguns autores apontam também as análises da função discriminante e a logit analysis quando se tem uma variável critério dicotômica. A análise discriminante seria adequada se todas as variáveis antecendentes fossem contínuas e com distribuição normal. A logit analysis poderia ser utilizada se todos os preditores fossem categóricos. Tabachnick e Fidel (2001) afirmam que a análise de regressão logística é mais flexível que as outras, visto que não há exigência de distribuição normal e da possibilidade das variáveis preditoras poderem ser contínuas, discretas e dicotômicas.

Desta forma, a análise de regressão logística é mais adequada quando as variáveis preditoras são tanto contínuas quanto categóricas e, não necessariamente, apresentam distribuição normal, visto que, na análise de regressão logística não há premissas com relação a distribuição das variáveis preditoras. Assim, mediante o exposto, a análise de regressão logística apresenta-se como a mais adequada para o cumprimento do objetivo apresentado pelo Estudo 3.

Entretanto, antes das análise de regressão logística foi realizada a identificação dos casos extremos multivariados, por meio da análise estatística com base na distância Mahalanobis ( =0,001). Os casos extremos foram retirados do banco de dados.

Para estimativa de quais variáveis poderiam entrar no modelo de regressão, foram realizadas análises não paramétricas, para verificar a existência ou não de significância de relação entre as variáveis preditoras e a variável critério. Foram

utilizados testes de qui-quadrado (em casos com duas variáveis categóricas, por exemplo, gênero e evasão) e testes T (em casos da variável preditiva ser contínua, como por exemplo, valor instrumental do treinamento). Considerou-se como nível de significância estatística p < 0,05. Essas análises, segundo Tabachnick e Fidel (2001) permitem estabelecer o nível de significação da relação entre duas variáveis.

7. Resultados

Neste capítulo serão apresentados os resultados dos três estudos desta pesquisa. Como mencionado anteriormente, o primeiro estudo objetivou a construção e validação estatística da escala de Comportamentos e Atitudes do Aluno Relacionados a Cursos a Distância; sendo os resultados apresentados na primeira parte desse capítulo. Na segunda parte desse capítulo são apresentados os resultados do segundo estudo que objetivou a revalidação estatística da escala de Valor Instrumental do Treinamento, no âmbito da EaD. Por fim, na terceira parte desse capítulo são apresentados os resultados do Estudo 3, cujo objetivo foi realizar a análise do relacionamento entre características da clientela (idade, gênero, participação anterior em curso a distância, pagamento do curso pelo aluno e valor instrumental do treinamento), características do curso e comportamento e atitudes do aluno relacionados a cursos a distância com a variável critério evasão.

7.1. Resultados do Estudo 1 – Validação Estatística da Escala de

In document Signature authentication using graph edge labeling (sider 61-64)