• No results found

1.7   Publikasjonshistorie

1.7.1   Kapittelets målsetting

Como ACP resume a estrutura de variabilidade dos dados originais a partir da

final, pouco

componentes principais envolve a decom

aleatório que contém erem analisados. Um procedimento muito comum é a padronização dos dados contidos no vetor

transformação que tem

unitárias119, de maneira a evitar problemas advindos das amplas diferenças de escala de medida entre as variáveis explicativas. Se

orm

Com vistas a extrair os componentes principais a partir da matriz de covariâncias de um vetor aleatório X, adotamos o seguinte procedimento121:

já mencionado, a

construção de combinações lineares desses dados, permitindo que, ao s componentes expliquem a maior parte da variabilidade. A obtenção dos posição da matriz de covariâncias do vetor os dados a s

aleatório original, que consiste numa como resultado novas variáveis centradas em zero e com variâncias

assim for, os componentes principais serão obtidos a partir da matriz de covariâncias associadas ao vetor transf ado. Estatisticamente, isso equivale à obtenção dos componentes a partir da matriz de correlação das variáveis originais120 (MINGOTI, 2005, pp. 60).

119

Trata-se de uma transformação simples, que consiste em subtrair de cada variável xi a média e dividi-las pelo desvio padrão: [(xik - xk*)/σk], onde xk* é a média e σk é o desvio-padrão. O subscrito k indica cada um dos atributos considerados no estudo (em nosso caso, são quinze).

120

De fato, o pacote computacional utilizado (SAS 8.0) obtém os componentes a partir da matriz de correlação das variáveis originais.

121

Este procedimento é explicitado com detalhes em MANLY(1986), JOHNSON & WICHERN (1998), e MINGOTI (2005). Foge ao escopo desta dissertação descrever com minúcias as propriedades da álgebra linear e matricial envolvidas no procedimento de geração dos componentes. Uma bem sucedida descrição sumária do processo de obtenção dos componentes é encontrada em PEREIRA (2004).

Seja X um vetor aleatório com p variáveis, vetor de médias µ e matriz de covariâncias Σpxp.

• Consideremos λi (1 ≤ i ≤ p) os autovalores da matriz Σpxp, com respectivos autovetores normalizados ei (1 ≤ i ≤ p), estes sendo portanto ortogonais entre si (ei’ej = 0 para todo i ≠ j) e cada um com comprimento igual a 1 (ei’ei = 1 para todo i).

Tomemos um outro vetor aleatório Y = O’X, sendo Opxp a matriz ortogonal constituída dos autovetores normalizados da matriz de covariâncias Σpxp.

O vetor Y é composto de p combinações lineares das variáveis aleatórias originais do vetor X. Além disso, Y tem vetor de médias O’µ e matriz de covariâncias Λpxp, que é uma matriz diagonal cujos elementos são iguais a λi (1 ≤ i ≤ p), autovalores da matriz de covariâncias original122. Assim, Λpxp revela-se uma matriz similar a Σpxp, de forma que X e

Y têm a mesma variância total e a mesma variância generalizada123, sendo Y um vetor composto por variáveis aleatórias não correlacionadas, donde deriva a vantagem de utilizar as combinações lineares em Y para sintetizar a estrutura de covariâncias de X. Em vez de utiliz r o vetor aleatório X original, torna-se possível interpretar conjuntamente seus dados a partir de k (k < p) combinações lineares principais. A ortogonalidade dos componentes gerados em Y garantirá que grande parcela da cia seja repre tada já pelos primeiros componentes, ordenados decrescentemente conforme os autovalores expressos na matriz de covariâncias de Y. O autovalor λi corresponde à variância do i-ési

Yi, ao passo que o autovetor ei, elemento da matriz Opxp, é composto pelos coeficientes da combinação linear, que determina o peso da associação de cada variável com o componente i em qu

a

variân sen

mo componente principal

estão. O principal resultado concreto da ACP, ilustrado a seguir, é uma tabela cujas

122

O fundamento matemático de toda a análise de componentes principais é expresso pelo “teorema da decomposição espectral”, relativo à decomposição de matrizes de covariâncias e correlação em seus autovalores e autovetores normalizados. É esse teorema que garante que existe a matriz ortogonal Opxp geradora do vetor Y, cuja matriz de covariâncias Λpxp é similar à matriz de covariâncias original Σpxp. O

teorema da decomposição espectral é explicitado com detalhes em JOHNSON & WICHERN (1998) e MINGOTI (2005).

123

A variância total é definida pelo traço da matriz de covariâncias (Σpxp), ou seja, pela soma dos elementos de sua diagonal principal. A variância generalizada, por seu turno, é dada pelo determinante da matriz Σpxp. Ambas fornecem uma noção da dispersão global da distribuição multivariada, diferindo apenas o fato de que a primeira é determinada apenas pelas variâncias das variáveis, ao passo que a segunda é influenciada também pela covariância entre elas.

colunas representam os componentes principais Yi e cujas linhas medem a importância de cada variável Xj (atributos) no componente em questão. Portanto, os elementos eij expressam os coeficientes das combinações lineares, ou seja, o peso do atributo j no componente i. Como o número de componentes gerados é igual ao número p de atributos incluídos no estudo, tanto i quanto j compreendem o intervalo de 1 a p.

Y1 Y2 ... Yp X1 e11 e21 ... e1p X2 e12 e22 ... e2p : : : : Xp e1p e2p ... epp

Como salientado por SIMÕES (2005), a grande vantagem que uma estrutura de análise como a ACP apresenta sobre a econometria tradicional se mostra quando as ção a ser ajustada são significativamente autocorrelacionadas, vando o modelo a incorrer em multicolinearidade e comprometendo, portanto, a

se esquiva desse problema, uma vez que as variáveis obtidas por esse método são ortogonais por construção. Ademais, outra vantagem da AC

resultados consumada adiante permitirá melhor entendimento do método e de suas potencialidades.

variáveis explicativas da equa le

significância dos parâmetros estimados. A ACP

P reside no fato de que “não é necessário supor distribuição normal e projetar o centro de gravidade da nuvem de pontos observados na coordenada de origem (0,0); ao contrário, a projeção ortogonal da origem centrar-se-á no centro gravitacional da nuvem de pontos, sem necessidade de supor normalidade e assintocidade” (SIMÕES, 2005, pp.17). A própria lógica estatística do método garante a “centralização” dos dados no baricentro de gravidade da nuvem de pontos.

A descrição do fundamento do método, embora seja importante para o entendimento da lógica inerente aos procedimentos estatísticos, seria dispensável em função das facilidades oferecidas pelos pacotes computacionais, capazes de realizar tais procedimentos automaticamente. Procedemos à ACP lançando mão do software SAS, versão 8.0. Mais do que a descrição da técnica de componentes principais per se, a própria análise dos