5 Empirical findings
5.3 Organizing
5.3.1 Knowledge transfer between generations
O estudo e a interpretação dos resultados de um universo de dados envolvem a análise de um grande número de variáveis, fazendo com que o trabalho se torne difícil e demorado, podendo ocorrer erros na interpretação e perda de informações importantes. A análise de componentes principais constitui um método multivariado e sua utilização destaca-se como uma importante ferramenta para o tratamento de um grande número de dados (SANTOS, 2006).
A Análise de Componentes Principais (do inglês, Principal Component Analysis), simplificada pela sigla PCA, é uma técnica de redução do conjunto de dados quando esses apresentam redundância, ou seja, variáveis altamente correlacionadas (CORREIA; FERERIRA, 2007; FAGNANI, 2009).
A PCA é uma ferramenta quimiométrica bastante conhecida e utilizada para reduzir a dimensão dos dados originais. Assim, uma quantidade infinita de informações pode ser organizada em uma matriz de dados X formada por N linhas e M colunas. Como exemplo, as linhas podem ser amostras de água de diferentes locais ou diferentes tratamentos, e as colunas são as variáveis que podem ser características físico-químicas ou até mesmo concentrações de espécies químicas (MATOS et al., 2003; CORREIA; FERERIRA, 2007)
Com essa ferramenta, a dimensão dos dados originais é diminuída para um menor conjunto de dimensões chamadas de Componentes Principais (PC`s). Portanto, as principais vantagens da PCA estão na simplificação, modelamento, detecção de amostras anômalas, classificação e previsão (MATOS et al., 2003).
Dois novos conjuntos de dados são gerados a partir dos PC`s são os scores e os loadings. Estes dois conjuntos fornecem informações sobre as amostras e as variáveis, respectivamente. A Figura 21 mostra a decomposição dos dados originais em scores (t) e loadings (p) e uma matriz de erros E. Combinando os dados dos scores é possível realizar um estudo mais detalhado dos dados originais sem perda de informações relevantes. No entanto, antes de utilizar a PCA sobre dados numéricos torna-se necessário efetuar algum tipo de pré- processamento nos dados originais.
Figura 21- Decomposição de uma matriz X com N linhas e K colunas
em vetores de scores (t) e loadings (p) e uma matriz de erros E. Adaptado de Matos et al. (2003).
O centrado na média (CM) e o autoescalamento (AS) são os principais tipos de pré- tratamento utilizados. Com relação ao CM, calcula-se a média de cada variável, através da equação 1:
onde Xj é a média dos dados Xij contidos em uma coluna (variáveis). Em seguida, subtrai-se os dados originais pela média calculada (equação 2):
No AS, calcula-se a variância dos dados s2 (equação 3):
em seguida, subtrai-se os dados originais pela média (equação 1), e divide-se pelo desvio padrão, utilizando a equação 4:
O pré-processamento CM é mais utilizado para dados espectrais e o AS quando se quer dar a mesma importância para todas as variáveis. A Figura 22 mostra apresenta os tipos de pré-processamento comentado. Na Figura 22a existem 10 (retângulos) de tamanhos diferentes. Quando utilizamos o pré-processamento centrado na média colocamos todas as médias em zero (Figura 22b). Na Figura 22c os dados estão autoescalonados e o tamanho das variáveis são praticamente iguais (MATOS, 2003).
Esse método de análise multivariada é utilizado para projetar dados n-dimensionais em um espaço de baixa dimensão, normalmente duas ou três. Esse procedimento é feito através do cálculo de componentes principais obtidas fazendo-se combinações lineares das variáveis originais. Em uma análise de componentes principais, o agrupamento das amostras define a estrutura dos dados através de gráficos de scores e loadings, cujos eixos são componentes principais (PCs) nos quais os dados são projetados. Os scores fornecem a composição das PCs em relação às amostras, enquanto os loadings fornecem essa mesma composição em relação às varriáveis. Como as PCs são ortogonais, é possível examinar as relações entre amostras e variáveis através dos gráficos dos scores e dos loadings. O estudo do conjunto de scores e loadings ainda permite estimar a influência de cada variável em cada amostra (FERREIRA,
Figura 22 – Pré-processamento de dados para 10 variáveis fictícias: (a)
dados originais, (b) dados centrados na média (média igual a zero) e (c) dados autoescalados (média igual a zero e desvio padrão igual a 1). As linhas horizontais representam a média de cada variável. Adaptado de MATOS et al. (2003).
Sousa et al. (2006) determinaram os teores de íons metálicos em amostras de água de coco processada e natural. Os pesquisadores utilizaram a técnica de ICP/OES para a determinação de Ca, Mg, Mn, Fe, Zn, Cu, Al, Se, Cd e Pb. As concentrações das espécies determinadas nas amostras constituem dados multivariados e, por esse motivo, foram interpretados utilizando-se Análise de Componentes Principais (PCA).
Em outro trabalho Santana; Barroncas (2007) realizaram um estudo de metais pesados (Co, Cu, Fe, Cr, Ni, Mn, Pb e Zn) em água e sedimento na Bacia do Tarumã-Açu em Manaus- AM. A análise de Componentes Principais foi utilizada para descrever a similaridade entre as amostras considerando o conjunto total de variáveis e as correlações entre essas variáveis; e encontrar conjuntos de variáveis que possam ser consideradas redundantes.
Barrento et al. (2009) determinaram S, As, Br, Sr, Cd, Hg e Pb em duas populações de Cancer pagurus (espécie de caranguejo), para avaliar as implicações quanto ao consumo humano. A determinação dos íons metálicos foi realizada em diferentes partes dos caranguejos (ex: gônadas, músculo, hepatopâncreas e brânquias). A PCA foi utilizada para classificar os grupos quanto à origem da captura, ao sexo e a contaminação em cada parte analisada. Ficou evidenciado que o hepatopâncreas continha teor de preocupante de cromo para consumidores freqüentes.
Utilizando a Análises de Componentes Principais e mexilhões coletados em diferentes áreas de várias regiões do mundo Szefer et al. (2006) realizaram um estudo comparativo para avaliar por meio da análise multivariada o uso de espécies de Mytilidae como biomonitor no controle da contaminação por íons metálicos em todo o mundo.
Sendo assim, utilizamos a Análises de Componentes Principais para tratar os dados analíticos obtidos no presente trabalho.