1.7 Publikasjonshistorie
1.7.1 Kapittelets målsetting
Como ACP resume a estrutura de variabilidade dos dados originais a partir da
final, pouco
componentes principais envolve a decom
aleatório que contém erem analisados. Um procedimento muito comum é a padronização dos dados contidos no vetor
transformação que tem
unitárias119, de maneira a evitar problemas advindos das amplas diferenças de escala de medida entre as variáveis explicativas. Se
orm
Com vistas a extrair os componentes principais a partir da matriz de covariâncias de um vetor aleatório X, adotamos o seguinte procedimento121:
já mencionado, a
construção de combinações lineares desses dados, permitindo que, ao s componentes expliquem a maior parte da variabilidade. A obtenção dos posição da matriz de covariâncias do vetor os dados a s
aleatório original, que consiste numa como resultado novas variáveis centradas em zero e com variâncias
assim for, os componentes principais serão obtidos a partir da matriz de covariâncias associadas ao vetor transf ado. Estatisticamente, isso equivale à obtenção dos componentes a partir da matriz de correlação das variáveis originais120 (MINGOTI, 2005, pp. 60).
119
Trata-se de uma transformação simples, que consiste em subtrair de cada variável xi a média e dividi-las pelo desvio padrão: [(xik - xk*)/σk], onde xk* é a média e σk é o desvio-padrão. O subscrito k indica cada um dos atributos considerados no estudo (em nosso caso, são quinze).
120
De fato, o pacote computacional utilizado (SAS 8.0) obtém os componentes a partir da matriz de correlação das variáveis originais.
121
Este procedimento é explicitado com detalhes em MANLY(1986), JOHNSON & WICHERN (1998), e MINGOTI (2005). Foge ao escopo desta dissertação descrever com minúcias as propriedades da álgebra linear e matricial envolvidas no procedimento de geração dos componentes. Uma bem sucedida descrição sumária do processo de obtenção dos componentes é encontrada em PEREIRA (2004).
• Seja X um vetor aleatório com p variáveis, vetor de médias µ e matriz de covariâncias Σpxp.
• Consideremos λi (1 ≤ i ≤ p) os autovalores da matriz Σpxp, com respectivos autovetores normalizados ei (1 ≤ i ≤ p), estes sendo portanto ortogonais entre si (ei’ej = 0 para todo i ≠ j) e cada um com comprimento igual a 1 (ei’ei = 1 para todo i).
• Tomemos um outro vetor aleatório Y = O’X, sendo Opxp a matriz ortogonal constituída dos autovetores normalizados da matriz de covariâncias Σpxp.
O vetor Y é composto de p combinações lineares das variáveis aleatórias originais do vetor X. Além disso, Y tem vetor de médias O’µ e matriz de covariâncias Λpxp, que é uma matriz diagonal cujos elementos são iguais a λi (1 ≤ i ≤ p), autovalores da matriz de covariâncias original122. Assim, Λpxp revela-se uma matriz similar a Σpxp, de forma que X e
Y têm a mesma variância total e a mesma variância generalizada123, sendo Y um vetor composto por variáveis aleatórias não correlacionadas, donde deriva a vantagem de utilizar as combinações lineares em Y para sintetizar a estrutura de covariâncias de X. Em vez de utiliz r o vetor aleatório X original, torna-se possível interpretar conjuntamente seus dados a partir de k (k < p) combinações lineares principais. A ortogonalidade dos componentes gerados em Y garantirá que grande parcela da cia seja repre tada já pelos primeiros componentes, ordenados decrescentemente conforme os autovalores expressos na matriz de covariâncias de Y. O autovalor λi corresponde à variância do i-ési
Yi, ao passo que o autovetor ei, elemento da matriz Opxp, é composto pelos coeficientes da combinação linear, que determina o peso da associação de cada variável com o componente i em qu
a
variân sen
mo componente principal
estão. O principal resultado concreto da ACP, ilustrado a seguir, é uma tabela cujas
122
O fundamento matemático de toda a análise de componentes principais é expresso pelo “teorema da decomposição espectral”, relativo à decomposição de matrizes de covariâncias e correlação em seus autovalores e autovetores normalizados. É esse teorema que garante que existe a matriz ortogonal Opxp geradora do vetor Y, cuja matriz de covariâncias Λpxp é similar à matriz de covariâncias original Σpxp. O
teorema da decomposição espectral é explicitado com detalhes em JOHNSON & WICHERN (1998) e MINGOTI (2005).
123
A variância total é definida pelo traço da matriz de covariâncias (Σpxp), ou seja, pela soma dos elementos de sua diagonal principal. A variância generalizada, por seu turno, é dada pelo determinante da matriz Σpxp. Ambas fornecem uma noção da dispersão global da distribuição multivariada, diferindo apenas o fato de que a primeira é determinada apenas pelas variâncias das variáveis, ao passo que a segunda é influenciada também pela covariância entre elas.
colunas representam os componentes principais Yi e cujas linhas medem a importância de cada variável Xj (atributos) no componente em questão. Portanto, os elementos eij expressam os coeficientes das combinações lineares, ou seja, o peso do atributo j no componente i. Como o número de componentes gerados é igual ao número p de atributos incluídos no estudo, tanto i quanto j compreendem o intervalo de 1 a p.
Y1 Y2 ... Yp X1 e11 e21 ... e1p X2 e12 e22 ... e2p : : : : Xp e1p e2p ... epp
Como salientado por SIMÕES (2005), a grande vantagem que uma estrutura de análise como a ACP apresenta sobre a econometria tradicional se mostra quando as ção a ser ajustada são significativamente autocorrelacionadas, vando o modelo a incorrer em multicolinearidade e comprometendo, portanto, a
se esquiva desse problema, uma vez que as variáveis obtidas por esse método são ortogonais por construção. Ademais, outra vantagem da AC
resultados consumada adiante permitirá melhor entendimento do método e de suas potencialidades.
variáveis explicativas da equa le
significância dos parâmetros estimados. A ACP
P reside no fato de que “não é necessário supor distribuição normal e projetar o centro de gravidade da nuvem de pontos observados na coordenada de origem (0,0); ao contrário, a projeção ortogonal da origem centrar-se-á no centro gravitacional da nuvem de pontos, sem necessidade de supor normalidade e assintocidade” (SIMÕES, 2005, pp.17). A própria lógica estatística do método garante a “centralização” dos dados no baricentro de gravidade da nuvem de pontos.
A descrição do fundamento do método, embora seja importante para o entendimento da lógica inerente aos procedimentos estatísticos, seria dispensável em função das facilidades oferecidas pelos pacotes computacionais, capazes de realizar tais procedimentos automaticamente. Procedemos à ACP lançando mão do software SAS, versão 8.0. Mais do que a descrição da técnica de componentes principais per se, a própria análise dos