9. Konferanser og seminarer
9.3 Arvid Brodersen-forelesning
Esta seção visa apresentar as técnicas de análise de dados utilizadas nesta tese destacando suas principais características, formas de utilização e principalmente seus pressupostos básicos e indicadores de adequação que permitem avaliar se as técnicas podem de fato ser utilizadas na pesquisa.
3.6.1. Análise Fatorial
A utilização da técnica de análise fatorial nesta tese surge da necessidade de redução das variáveis independentes selecionadas para explicar as dimensões de sucesso nos projetos da amostra.
Segundo Reis (2001), a análise fatorial é um conjunto de técnicas estatísticas que tem por objetivo representar ou descrever um número de variáveis iniciais a partir de um menor número de variáveis hipotéticas.
Esta técnica toma por base a estrutura de dependência existente entre as variáveis de interesse, utilizando sua correlação ou sua covariância, permitindo a criação de um conjunto menor de variáveis (usualmente chamados de fatores ou dimensões latentes) a partir das variáveis iniciais, como mostrado na figura 18:
Para Corrar, Paulo e Dias Filho (2009), a análise fatorial é uma técnica que busca a identificação de dimensões de variabilidade comuns existentes em um conjunto de fenômenos, onde o intuito é desvendar as estruturas existentes, mas que não são observáveis diretamente.
Variável 1 Variável 2 Variável 3 F1
Variável 4 Variável 5 Variável 6 F2
Figura 19. Construção dos fatores a partir das variáveis originais Fonte: Corrar, Paulo e Dias Filho (2009)
Desta forma, a técnica permite determinar o grau em que cada variável é explicada por cada dimensão. Uma vez que estes aspectos sejam determinados, é possível obter uma redução dos dados calculando scores para cada fator e substituir as variáveis originais pelos mesmos (HAIR et alii, 2005).
Para Malhotra (2004), a estruturação da análise fatorial envolve a formulação do problema, a construção da matriz de correlação, a escolha do método de análise fatorial, a determinação do número de fatores e sua interpretação e a determinação do ajuste do modelo.
Cooper e Schindler (2003) afirmam que embora existam diversos métodos para a realização da análise fatorial, o mais utilizado é a análise de componentes principais. De acordo com os autores, este método transforma o conjunto de variáveis originais em um conjunto de fatores que são suas combinações lineares e não apresentam autocorrelação.
A análise de componentes principais gera, a partir das combinações lineares das variáveis originais, o primeiro componente principal ou primeiro fator. A partir daí um segundo fator é construído para tentar explicar a variação não explicada pelo primeiro, seguindo-se a construção sucessiva de outros fatores pelo mesmo processo.
Para a utilização desta técnica existem dois aspectos de grande relevância, o primeiro é o método de escolha do número de fatores, que pode ser feita pelo critério do autovalor (eigenvalue), que corresponde a quanto o fator consegue explicar da variância apresentada pelo conjunto de dados, sendo que apenas autovalores acima de 1,0 devem ser considerados. O segundo aspecto é a possibilidade de aumento da capacidade explicativa da técnica por meio da rotação dos fatores, que na sua extração estão associados à maioria das variáveis e após o processo de rotação este relacionamento fica mais claro, obtendo-se resultados melhores em relação à sua interpretação (CORRAR, PAULO e DIAS FILHO, 2009).
Outro aspecto relevante sobre a técnica são os testes que devem ser realizados para verificar se a amostra é adequada para a sua aplicação. Neste caso recomendam-se dois testes: o teste de Kaiser-Meyer-Olkin (KMO) e o teste de esfericidade de Bartlett.
O teste KMO mede o nível de adequação da amostra por meio da correlação parcial entre as variáveis, sendo que segundo Hair et alii (2005), valores acima de 0,5 são consideradas aceitáveis e valores acima de 0,8 são considerados excelentes.
Já o teste de Bartlett mede se a matriz de correlação entre as variáveis é uma matriz identidade, ou seja, se cada variável possui correlação com ela mesma e não com as outras variáveis estudadas. Desta forma, propõe-se a hipótese nula de que a matriz de
correlação é uma matriz identidade, sendo considerada adequada se a significância do teste for menor do que 0,05, já que este teste usualmente é feito com significância de 5%.
Assim, com base no exposto nesta seção, foi adotada nesta pesquisa a técnica de componentes principais (realizada pelo software SPSS), cuja escolha se justifica pelo exposto por Hair et alii (2005), que recomendam a sua utilização quando o pesquisador estiver interessado no tratamento de dados para utilização em outras técnicas estatísticas, alinhando- se, portanto, a necessidade deste trabalho, em que é utilizada também a regressão logística multinomial.
Além disso, com base no exposto nesta seção foi realizada a rotação dos fatores buscando aumentar sua capacidade explicativa, sendo que a opção recaiu pela técnica Equimax, o qual segundo Corrar, Paulo e Dias Filho (2009) busca minimizar a ocorrência de uma variável possuir altas cargas fatoriais para diferentes fatores e também minimizar o número de fatores necessários para analisar cada variável. Esta escolha se deveu aos melhores resultados em testes realizados com a técnica.
A seleção do número de fatores foi realizada com base no método do autovalor maior do que um, resultando em doze fatores ou componentes principais que são apresentados em detalhes no capítulo 5, junto aos testes de adequação KMO e de Bartlett.
3.6.2. Regressão logística multinomial
A regressão logística é uma técnica estatística que tem por objetivo discriminar dois grupos de observações dentro de uma amostra, diferindo da regressão linear por utilizar uma variável dependente dicotômica ou binária.
De acordo com Hosmer e Lemeshow (1989), a técnica de regressão logística tornou-se um método padrão para análise de regressão para variáveis binárias, sendo indicada para situações em que se quer mensurar a probabilidade de ocorrência de um determinado fenômeno ou de características relativas a categorias definidas pela dicotomia da variável dependente.
Segundo Hair (2005), esta técnica deriva seu nome da transformação logística usada com a variável dependente e que permite calcular diretamente a probabilidade de o fenômeno analisado ocorrer. Segundo Johnson e Wichern (1998), o modelo de regressão logística é baseado na função logística:
(1)
Podendo ser expresso na forma:
(2)
Onde:
p = probabilidade de resposta para o i-ésimo fator (ou covariante) α = constante
βi = coeficientes das variáveis independentes Xi = variáveis independentes
A técnica de regressão logística é normalmente preferida em relação a outras técnicas como a análise discriminante, segundo Hair et alii (2005), devido a não dependência de que diversas suposições rígidas sejam atendidas e pela robustez quando estas não são satisfeitas, como a relação linear entre variáveis dependentes e independentes e a distribuição normal da variável dependente e dos termos de erro.
Entretanto, segundo Garson (2008), a regressão logística ainda necessita que outros pressupostos sejam atendidos, destacando-se:
• A variável dependente deve ser dicotômica ou multinomial; • Inclusão de todas as variáveis relevantes no modelo;
• Exclusão de todas as variáveis irrelevantes no modelo; • Ausência de multicolinearidade;
• Ajuste adequado do modelo.
Segundo Tabachnick e Fidell (2007), quando o número de categorias é maior do que dois, a regressão logística é chamada de multinomial ou politômica, sendo que quando as categorias são ordenadas a técnica busca encontrar, por meio de uma equação baseada na função logística, a probabilidade de ocorrência da categoria imediatamente acima da última e posteriormente, repetir o processo com novas equações para prever as categorias imediatamente superiores em relação às anteriores.
Assim, no caso desta pesquisa, como será observado no capítulo 5 a técnica buscou encontrar a probabilidade de ocorrência da categoria “1” (sucesso parcial) em relação a ocorrência da categoria “0” e a partir daí mensurar a probabilidade de ocorrência da categoria “2” (sucesso completo) em relação à categoria “1”.
Na regressão logística multinomial existem indicadores que verificam a adequação da amostra para utilização da técnica. O primeiro indicador é encontrado a partir de um teste de ajuste conhecido como Chi-Square ou Qui-Quadrado, que irá verificar se existe diferença significativa do modelo estatístico com as variáveis e apenas contendo o termo independente ou intercepto, assim, testa-se a hipótese nula de que esta diferença existe e é significativa, podendo ser aceita se o valor da significância for inferior a 0,05.
Outros testes relevantes para verificar a adequação desta técnica são os testes de Pearson e Deviance. Ambos os testes verificam a hipótese nula de haver diferença significativa entre os dados previstos e observados, sendo que novamente valores inferiores a 0,05 permitem aceitar a hipótese.
Outros indicadores importantes dentro da técnica de regressão logística são as medidas de R² de Cox & Snell (3) e o R² de Nagelkerke (4) que possuem as fórmulas a seguir.
(3)
(4)
Estes indicadores oferecem uma medida do poder explicativo do modelo proposto, podendo variar de 0 a 1 onde, quanto mais próximo de 1 maior é a capacidade do modelo em explicar o fenômeno estudado, sendo que em geral, valores maiores do que 0,6 são considerados adequados.
Os resultados dos testes supracitados, bem como os resultados obtidos com a aplicação das técnicas mencionadas nesta seção podem ser observados no capítulo 6.