Valldøla - Bestandsovervåking av laks og sjøørret i elver på Sunnmøre høsten 2020

A análise fatorial é uma das técnicas multivariadas de análise de dados que permite explicar o comportamento de um fenômeno por meio de uma série de variáveis. Essa análise constitui uma técnica estatística exploratória, destinada a resumir um conjunto de variáveis em um conjunto de fatores ou constructos não observáveis.

A análise fatorial é uma técnica de interdependência que avalia todas as variáveis conjuntamente, cada uma relacionada com a outra. Contudo, este conceito não é utilizado para a previsão de uma variável dependente, mas para aumentar o poder de explicação do conjunto de variáveis.

No modelo de análise fatorial, cada uma das variáveis pode ser definida como combinação linear dos fatores comuns. Estes fatores explicam uma parcela da variância de cada variável, além de um desvio que resume a parcela da variância total não explicada pelos fatores. A parcela da variância explicada pelos fatores comuns é denominada de comunalidade, e a parcela não explicada é chamada de especificidade. Dessa forma, quanto maior o índice de comunalidade de uma variável, mais importante esta se torna para a composição de um fator. Este índice varia de 0 a 1, sendo que os valores próximos a 0 indicam que os fatores comuns não explicam a variância de determinada variável e, portanto, ela não é importante na composição do fator; já os valores próximos a 1 apontam que grande parte da variância é explicada pelo fator. Variáveis cujos valores de comunalidade são inferiores a 0,6 são consideradas menos importantes para a composição de um fator, podendo

ser retiradas da análise (HAIR et al., 2005). A Figura 3.1 identifica as principais fases deste método aplicadas a esta tese.

A análise fatorial possui dois objetivos específicos: identificar uma estrutura de relações entre variáveis ou a estrutura de relações entre casos. O primeiro, denominado análise fatorial tipo R, é utilizado quando o pesquisador tem o interesse em analisar um conjunto de variáveis com o objetivo de identificar dimensões latentes não-observáveis. A análise também pode ser aplicada a uma matriz de relações de casos individuais, denominada tipo Q, que combina um grande número de indivíduos em uma pequena quantidade de agrupamentos, porém, normalmente, as pesquisas substituem este método pelo procedimento de análise de clusters. Esta pesquisa é caracterizada como uma análise fatorial tipo R, pois tem o objetivo exploratório de estabelecer fatores a partir de uma estrutura de variáveis observadas a partir de macroconstructos (capítulo 2).

Objetivo da Análise Fatorial

(i) Identificação de estrutura de fatores latentes - Análise fatorial tipo R

Planejamento da Análise Fatorial

(i) Determinar a correlação entre as variáveis (ii) Determinar o KMO, o teste de Bartlett (iii) Determinar a matriz de correlação anti-imagem (iv) Estabelecer o método de extração de fatores: método dos

componentes principais

Determinação do número de fatores

(i) Pelo Eigenvalue

(ii) Pela porcetangem da variância explicada pelos fatores

Interpretação dos fatores

(i) Rotacionar a matriz de fatores: método Varimax (ii) Avaliar a significância das cargas fatoriais (factor loading )

(iii) Nomear os fatores retidos

(iv) Determinar os escores fatoriais: método de regressão linear Fonte: Adaptado de Hair et al. (2005)

FIGURA 3.1 – Fases da Análise Fatorial

O segundo passo, por se tratar de uma análise fatorial com objetivo relacionado à estrutura de variáveis, tipo R, consiste em estabelecer a matriz de dados de entrada, obtida a

partir da correlação entre as variáveis da pesquisa. Nesta etapa, é avaliado o grau de relacionamento entre as variáveis e a conveniência da aplicação da análise fatorial.

Para a observação do grau de relacionamento entre as variáveis, esta pesquisa adota o procedimento de análise de correlações, que deve possuir um número substancial de relacionamentos significativos, isto é, superior a 0,30. Contudo, se todas as correlações são altas, a análise fatorial não é aplicável, pois não existirão fatores latentes.

O teste KMO (Kaiser-Meyer-Olkin) ou medida de adequação da amostra também mede o grau de correlação parcial entre as variáveis. Esse índice varia entre 0 e 1, alcançando 1 quando cada variável é perfeitamente prevista sem erro pelas outras. Hair et al. (2005) orientam que medidas de KMO acima de 0,5 são consideradas aceitáveis, e que acima de 0,8 significa excelente nível de relacionamento.

Outro método utilizado para determinar a adequação da amostra é o teste de esferecidade de Bartlett, que avalia se o conjunto de variáveis constitui uma matriz identidade, isto é, somente existe correlação entre uma variável e ela própria, sendo as demais correlações nulas, fato este que invalidaria a utilização da análise fatorial. A hipótese nula (H0) é que a matriz de correlação seja uma matriz-identidade, portanto, a matriz de dados é considerada adequada caso a significância seja inferior a 0,05, considerando-se um nível de significância de 5%.

Este trabalho também utiliza a matriz anti-imagem que mede, em sua diagonal, o valor do KMO individualmente para cada par de variáveis. Este valor deve ser superior a 0,50 para que a variável seja considerada adequada.

Uma vez que a matriz de correlação é considerada analisada e validada, deve- se estabelecer o método de extração dos fatores e a quantidade de fatores a serem retidos. Há dois métodos para a extração de fatores: componentes principais e análise de fatores comuns. O método dos componentes principais é utilizado quando o objetivo é a extração do menor número de fatores que explique a maior quantidade da variância representada no conjunto original de variáveis. Dessa forma, o método de componentes principais é consistente com o objetivo desta tese.

O objetivo da extração de fatores é determinar um conjunto de fatores não- observáveis que formem uma combinação linear das variáveis originais observáveis. Assim, se as variáveis X1, X2, X3, ..., Xn são altamente correlacionadas, elas serão combinadas a fim de formar um fator, e assim sucessivamente com todas as demais variáveis da matriz de correlação. Uma matriz de correlação entre as variáveis pode ser definida da seguinte forma:

Onde Fj é uma combinação linear das variáveis X1, X2, X3, ..., Xn, denominado de componente principal. O método dos componentes principais envolve a procura de um conjunto de valores de Cij que forme uma combinação linear que explique a maior parte da variância da matriz de correlação que qualquer outro conjunto de valores de Cij, sendo chamando de primeiro fator principal. Em seguida, a variância explicada pelo primeiro fator é subtraída da matriz de correlações, resultando-se, desta forma, a matriz residual. Adotando-se o mesmo procedimento obtém-se o segundo fator, e assim sucessivamente.

Cada variável, no momento de sua extração para a composição de um fator, possui uma parte de sua variância explicada pelo fator principal retido. Esta parte da variância da variável explicada pelo fator denomina-se de comunalidade. Quanto maior a comunalidade de uma variável, maior é sua importância para a composição de um fator. Segundo Hair et al. (2005), variáveis cujos valores de comunalidade sejam inferiores a 0,6 devem ser desconsideradas do modelo fatorial.

Quanto ao critério para a determinação do número de fatores, Hair et al. (2005) identificam três métodos: (i) critério de raiz latente pelo Eigenvalue; (ii) pela porcentagem da variância explicada pelos fatores retidos; e pelo gráfico de declive (screen plot). Este trabalho utiliza o critério de raiz latente, que é a técnica mais comumente utilizada. O raciocínio para o critério de raiz latente é que qualquer fator deve explicar a variância de pelo menos uma variável para ser mantido no processo de interpretação fatorial. Cada variável contribui com o valor 1 do autovalor ou Eigenvalue total. Logo, apenas os fatores cujos Eigenvalue são superiores a 1 são considerados significantes. O critério da porcentagem da variância também é considerado neste trabalho. Segundo Hair et al. (2005), em ciências sociais, os fatores devem ser retidos de modo a explicar pelo menos 60% da variância total. Dessa forma, esta tese considera os autovalores superiores a 1,0 que expliquem mais do que 60% da variância da matriz de correlações.

A última etapa da análise fatorial consiste em interpretar os fatores considerados significantes no estágio anterior. Para tanto, a matriz fatorial deve ser rotacionada a fim de facilitar a interpretação das variáveis. Existem duas formas principais para a rotação dos fatores: rotação ortogonal (Varimax), que mantém os fatores não correlacionados, e a rotação oblíqua, que torna os fatores correlacionados entre si.

Este trabalho utiliza o método de rotação ortogonal Varimax, pois, segundo Hair et al. (2005), este método é recomendado quando a pesquisa visa à redução do número de variáveis em fatores não correlacionados, e quando o pesquisador necessita obter escores

fatoriais para a utilização em procedimentos estatísticos posteriores, como é o caso desta pesquisa.

O objetivo principal da rotação é identificar as variáveis com maior correlação com um determinado fator, mantendo as demais com menor correlação com o mesmo e, dessa forma, facilitando o processo de interpretação. Esta correlação entre variável e fator é denominada de carga fatorial, obtida a partir da matriz de cargas fatoriais. Para ser considerada importante para a composição de um determinado fator, esta carga deve ser superior a 0,50 (HAIR et al., 2005). Os fatores, desse modo, são formados pelas variáveis com maiores cargas fatoriais, isto é, mais fortemente relacionadas com o fator, e, a partir desta composição fatorial, é possível definir os nomes dos fatores, nesta tese, denominados de fatores contextuais da organização.

Por fim, para se utilizar técnicas posteriores com os dados fatoriais, como é o caso da análise de clusters, é necessário determinar os escores fatoriais para cada caso estudado. Conceitualmente, o escore fatorial representa o grau com que um indivíduo tem escore elevado no grupo de variáveis que possui carga fatorial elevada em um determinado fator.

Por definição, o escore fatorial representa o peso de cada variável em relação ao fator extraído, dessa forma, cada uma das 46 variáveis receberam um peso em relação aos oito fatores. O escore para cada fator extraído pode ser escrito da seguinte maneira:

Fi = B1 . Xi1 + B2 . Xi2 + ... + Bp . Xip; i = 1, 2, ..., n (2) Em que:

Fi é o valor do escore não observável, que pode ser estimado por meio da técnica de análise fatorial fazendo uso da matriz do vetor X de variáveis observáveis.

B1, B2, ..., Bp representam os coeficientes de regressão das p variáveis observáveis.

Xi1, Xi2, ..., Xip representam as n observações (empresas pesquisadas) das p variáveis observáveis.

Como a variável Fi não é observável, deve-se estimá-la por meio de técnicas de análise fatorial, utilizando-se, para tanto, a matriz de variáveis observáveis. Deste modo, utilizando-se a forma matricial, pode-se reescrever a equação 1 da seguinte forma:

F(n, m) = X(n, p) . B(p, m) (3) Em que:

n é o número de empresas, n = 78; m é o número de fatores, m = 8; p é o número de variáveis, p = 46.

Como nas equações (2) e (3) os escores fatoriais são afetados tanto pela magnitude quanto pelas unidades em que as variáveis Xi são medidas, substitui-se a variável Xi pela variável normalizada Zij. A equação 4 demonstra o cálculo desta variável normalizada:

− = j j X X ij ij X Z σ µ (4)

Em que j representa as p variáveis;

µ é a média de Xi e Xj é o seu desvio padrão.

A partir desta transformação, a equação 3 pode ser rescrita da seguinte forma: F (n, m) = Z(n, p) . B(p, m) (5)

Os escores fatoriais finais de cada empresa são os dados de entrada para o procedimento subseqüente de análise de clusters.

In document Bestandsovervåking av laks og sjøørret i elver på Sunnmøre høsten 2020 (sider 17-22)