H YPOTHESES - Information, knowledge and opportunities exporting in the 21st century : the impo

Para calcular o IPM utilizou-se a análise fatorial, técnica multivariada de interdependência que busca identificar um número relativamente pequeno de indicadores latentes ou fatores comuns que podem ser utilizados para representar relações entre um número relativamente grande de indicadores inter-relacionados (FREITAS; PAZ; NÍCOLA, 2007).

A escolha dessa técnica se deve ao fato de a análise fatorial permitir avaliar simultaneamente diversas variáveis ou indicadores e ter como objetivo principal estimar os fatores comuns (combinação linear das variáveis ou indicadores originais). Estes são subjacentes às variáveis originais e não diretamente observáveis que possam explicar as correlações entre essas variáveis ou indicadores. Os fatores representam também as dimensões latentes ou constructos que resumem ou explicam o conjunto original de indicadores observados (HAIR et al., 2009).

De acordo com Fávero et al. (2009), a análise fatorial transforma indicadores correlacionados em fatores não correlacionados (ortogonais ou independentes), possibilitando reduzir a complexidade e facilitar a interpretação dos dados. Com aplicação em diversas áreas do conhecimento, a análise fatorial tem sido muito utilizada em pesquisas objetivando a redução de dados, bem como para a construção de índices ou parâmetros de comparação entre objetos, indivíduos, empresas e municípios. Por conseguinte, lançou-se mão dessa ferramenta da estatística multivariada para a construção do Índice de Pobreza Multidimensional (IPM) para o semiárido brasileiro, cujas etapas são descritas a seguir, conforme Fávero et al. (2009):

1) Verificação dos pressupostos da Análise Fatorial (AF);

2) Cálculo da Matriz de correlações e análise da adequação da utilização de AF; 3) Extração dos Fatores – a definição do número de fatores foi realizada pelo

critério Kaiser (variância explicada de no mínimo 1), ou seja, com base na regra de retenção de fatores com eigenvalues superiores a 1 e o método de extração dos fatores utilizado foi o de Análise de Componentes Principais (ACP), uma vez que se quer poucos fatores explicando o máximo da variância;

4) Rotação dos Fatores – consiste na transformação dos coeficientes dos componentes principais e foi efetuado com o objetivo de viabilizar a interpretação dos fatores extraídos, já que seu objetivo é simplificar a

interpretação dos fatores, que após essa rotação apresentarão as cargas fatoriais de tal forma que cada variável estará associada a um único fator. 5) Interpretação dos Fatores – quanto maior a carga fatorial, maior a importância

da variável dentro do fator.

A extração dos fatores em análise fatorial geralmente ocorre por meio do método de Análise de Componentes Principais (ACP), no qual o primeiro fator apresenta o melhor resumo das relações lineares exibidas das variáveis originais, explicando um maior percentual da variância dos dados como um todo (máxima variância), que qualquer outra combinação linear das variáveis, situação desejável na construção de um índice pela combinação linear de variáveis (KUBRUSLY, 2001). Por sua vez, o segundo fator contém o segundo maior percentual da variância explicada e assim sucessivamente até que toda a variância seja distribuída (HAIR et al., 2005).

Os fatores extraídos explicam a variabilidade dos dados na amostra total, a partir da soma das variâncias de cada indicador, podendo-se prever que as variáveis com maior variabilidade possam predominar na composição dos fatores, por esta razão o pesquisador deve atentar para a possibilidade de vir a ser um fator de viés nos resultados (RODRIGUES, 2009).

 Estimação do modelo de análise fatorial

Segundo Charles Spearman (1904) apud Fávero et. al. (2009), idealizador do modelo de análise fatorial, em uma matriz de correlações de um grupo de indicadores, a razão entre suas linhas é aproximadamente proporcional, quando desconsidera-se a diagonal principal. Spearman sugeriu que num conjunto de indicadores forte e fracamente relacionados, uma variação de um dos indicadores provocará variações nos demais, de maneira que a soma das variações individuais em cada indicador será a variação total, sugerindo também que cada indicador pudesse ser descrito pela seguinte expressão:

Xi= ai.F + € (6.1) Sendo:

Xi = i-ésimo escore associado ao indicador analisado;

ai = Constante chamada de carga fatorial (Loading), que mede a importância dos fatores na composição de cada indicador (correlação);

F = Fator aleatório comum para todos os indicadores medidos;

€ = Erro ou componente aleatório (erros ou parcela de variação do indicador ―i‖ que não pode ser explicada por nenhum dos fatores).

Ou seja: a variação total em um indicador pode ser explicada por um conjunto de fatores, o que permite inferir ainda que o comportamento de um indicador Xi pode ser explicado por um conjunto de fatores ―F‖. Efetuando a padronização de X (média 0 e desvio padrão 1), o modelo fatorial passa a ser descrito da seguinte forma (FÁVERO et. al., 2009):

Xi= ai1F1+ai2F2+ ...aimFm+ € (i=1,....,p) (6.2) Sendo:

Xi = indicadores padronizados; ai = Cargas fatoriais (i=1, 2, 3...p); F = Fatores comuns;

Os fatores podem ser estimados por combinação linear dos indicadores da seguinte forma (FÁVERO et. al., 2009):

Fm=dm1X1+ dm2X2+...+dmiXi (6.3)

Sendo:

Fm = Fatores comuns;

dmi = Coeficientes dos escores fatoriais; Xi = Indicadores originais.

Em termos matriciais, o modelo fatorial expresso por meio da expressão (6.2) pode ser descrito como se segue:

X= ΛF + € (6.4) Sendo:

X = Matriz de indicadores após a padronização; F = Vetor fator comum para os indicadores medidos;

Λ = Matriz dos pesos fatoriais, que mede a importância dos fatores na composição de cada indicador. É a correlação entre o fator e oindicador.

€ = Erro ou componente aleatório (erros ou parcela de variação do indicador ―i‖ que não pode ser explicada por nenhum dos fatores).

Desse modo, com a finalidade de assegurar a validade da aplicação da técnica de análise fatorial e sua utilização de forma adequada, além de se verificar a existência de outliers e se a distribuição dos dados é viesada, foi analisado o atendimento de alguns pressupostos (CORRAR et al., 2009; FÁVERO et. al., 2009; HAIR et al., 2009):

Normalidade e linearidade – tendo em vista que desvios na normalidade e linearidade podem reduzir as correlações entre os indicadores e comprometer o modelo proposto, foi realizado o teste de normalidade de Kolmogorov- Smirnov, para os indicadores selecionados, utilizando-se o pacote estatístico Statistical Package for Social Sciences (SPSS), cujos resultados podem ser vistos na seção seguinte.

Geração do Box-Plot – esse teste foi efetuado com o objetivo de mostrar por meio de gráficos, em consonância com os resultados do teste de normalidade, o comportamento da distribuição dos indicadores que permite a identificação de outliers. Caso existissem elementos atípicos, poderia ter sido necessária sua exclusão.

Correlação Significativa entre os indicadores _{– foi gerada a Matriz de} Correlações entre os indicadores estudados, visando medir a associação linear entre esses indicadores por meio do coeficiente de correlação de Pearson, devendo-se excluir aqueles que não obedeçam ao requisito de existência de altas correlações significativas (coeficientes de correlação de Pearson superiores a 0,30);

Estatística Kaiser-Meyer-Olkin (KMO) – os valores variam de 0 a 1. Avalia a adequação da amostra quanto ao grau de correlação parcial entre os indicadores, que deve ser pequeno. Valores de KMO próximos de zero indicam uma correlação fraca entre as varáveis e inadequação da técnica de Análise Fatorial, quanto mais próximos de 1, mais adequado o uso desta técnica.

Teste de esfericidade de Bartlett – permite testar a hipótese nula de que a matriz de correlações é uma matriz identidade, com determinante igual a 1 – caso a hipótese nula não seja rejeitada, não há correlações entre os indicadores e o uso da técnica não é adequado (FERREIRA JÚNIOR et al., 2004). Isso possibilita ao pesquisador saber se a correlação entre os indicadores é significativa e se a variabilidade dos dados pode ser

representada por um número pequeno de fatores (MONTEIRO; PINHEIRO, 2004).

Análise da matriz anti-imagem – contém os valores negativos das correlações parciais. Foi realizada com o objetivo de se calcular uma medida de adequação da amostra ou Measure of Sampling Adequacy (MSA), quanto maiores forem esses valores, mais adequado será o uso da análise fatorial. Quando algum indicador apresentar (MSA) < 0,5, convém retirá-lo da análise.

O Quadro 4 apresenta os intervalos de análise dos valores de KMO (MINGOTI, 2005).

Quadro 4 – Intervalos de valores da Estatística KMO (Kaiser-Meyer-Olkin)

Estatística KMO Análise fatorial

0,9 – 1,0 Muito boa 0,8 - 0,9 Boa 0,7 - 0,8 Média 0,6 - 0,7 Razoável 0,5 - 0,6 Má < 0,5 Inaceitável Fonte: Mingoti, 2005.

No modelo de análise fatorial, pressupõe-se a condição de ortogonalidade, ou seja, cada um dos fatores específicos é ortogonal com os fatores comuns, bem como que todos os fatores têm média zero e os respectivos vetores no espaço L-dimensional têm módulo igual a 1(FREITAS; PAZ; NÍCOLA, 2007).

A estimação do modelo de análise fatorial forneceu os escores fatoriais usados no cálculo do Índice de Pobreza Multidimensional (IPM). O IPM resultou, assim, da agregação dos fatores selecionados na análise fatorial, cujo cálculo para os municípios que compõem o semiárido utilizou, dentre as técnicas disponíveis, o método aditivo de agregação, sendo os pesos determinados a partir da análise de componentes principais– ACP (BROOKS et al., 2005; CROWARDS, 1999; EASTER, 1999; GBETIBOUO et al., 2010; GUILLAUMONT; SIMONET, 2011; HAHN, 2009; LEMOS, 2012; LEMOS, 2007; SALVATI et al., 2009; SULLIVAN; MEIGH, 2005; THORNTON et al., 2008). O cálculo do IPM adotou a seguinte equação:

∑

Sendo:

IPMj= Índice de Pobreza Multidimensional do j-ésimo município;

wi = peso atribuído ao i-ésimo componente principal ou fator extraído (wi = percentual da variância explicada pelo componente i/percentual da variância explicada por todos os fatores.

fij = escore fatorial do i-ésimo componente para o j-ésimo município; i = 1, ..., n (componentes principais);

j = 1, ..., 1133 (municípios do semiárido).

Os índices de pobreza dos municípios foram padronizados pelo método Min-Max, para expressar os valores obtidos em uma escala entre 0 (menor pobreza) e 1 (maior pobreza) (NARDO et al, 2005, SALVATI et al., 2009, BRIGUGLIO et al., 2009):

Sendo:

IPMsj=índice de pobreza padronizado para o município j; IPMj= índice de pobreza no município j;

IPMmin = índice de pobreza mínimo; IPMmax= índice de pobreza máximo.

Assim, quanto mais próximo de 1, maior a pobreza do município. Ao contrário, municípios com IPM próximos a 0, são menos pobres. O IPM é uma medida relativa. Nesse caso, não mede a intensidade ou gravidade da pobreza, mas possibilita ordenar os municípios segundo sua maior ou menor pobreza relativa. Assim, o fato de um município apresentar baixo índice não significa que tenha baixa pobreza, mas apenas que a sua pobreza é menor em relação a determinados municípios que compõem o semiárido. De forma análoga, elevado valor do IPM não deve ser interpretado como alta pobreza, embora essa situação não seja descartada.

 Classificação dos municípios segundo o IPM

Uma das características inerentes a um índice agregado é a sua parametrização. Sem um parâmetro ou valor de referência não há como interpretar o valor expresso pelo

índice. A atribuição de parâmetros, no entanto, é uma tarefa complexa e sujeita a críticas, pois muitas vezes envolve juízo de valor.

Alguns procedimentos no estabelecimento dos parâmetros são a consulta a especialista, o uso de estatísticas descritivas (especialmente o quartil ou desvio padrão) ou ainda a análise de conglomerados ou agrupamento.

Nesta pesquisa foi adotada esta última, com o intuito de possibilitar a definição de intervalos a partir do agrupamento dos municípios em clusters ou classes homogêneas quanto ao nível de pobreza.

A análise de agrupamentos ou clusters analysis é uma técnica estatística de interdependência que permite agrupar objetos ou indicadores em grupos homogêneos em função do grau de similaridade entre os indivíduos ou objetos, a partir de variáveis predeterminadas (FÁVERO et al., 2009).

Segundo Fávero et al. (2009), para a aplicação da análise de agrupamentos, algumas etapas devem ser seguidas, quais sejam:

Análise das variáveis ou objetos a serem agrupados (seleção de variáveis, identificação de outliers e padronização);

Seleção da medida de distância ou semelhança entre cada par de objetos; Seleção do algoritmo de agrupamento; método hierárquico ou não hierárquico; Interpretação e validação dos agrupamentos.

Esta técnica objetivou agrupar os elementos conforme sua estrutura natural, visando segregar os municípios em grupos homogêneos internamente, heterogêneos entre si e mutuamente exclusivos, a partir do Índice de Pobreza Multidimensional, com base em uma medida de similaridade ou distância. Portanto, a análise de conglomerados tem como principal propósito, definir a estrutura dos dados de maneira a alocar as observações mais semelhantes no mesmo grupo (FÁVERO et al., 2009).

Entre os dois tipos de métodos de análise de conglomerados existentes – hierárquico e não hierárquico, o procedimento utilizado para estratificação dos municípios, segundo seus níveis de pobreza, foi do tipo não hierárquico – K Means Cluster Analysis. Optou-se pelo método não hierárquico, haja vista o tamanho da amostra (1.133 municípios) e o interesse em agrupar os municípios em um número predefinido de clusters (conglomerados), no caso, três grupos: Municípios mais pobres, Municípios no nível intermediário de pobreza e Municípios menos pobres (Apêndice A).

In document Information, knowledge and opportunities exporting in the 21st century : the importance of market insight (sider 31-36)