Análise de agrupamento ou “cluster analysis” é um grupo de técnicas multivariadas cuja finalidade principal é classificar objetos de modo que cada objeto é semelhante aos outros no agrupamento com base em um conjunto de características escolhidas (HAIR et. al., 2005). O agrupamento é realizado de forma a minimizar as
34 diferenças entre os objetos em estudo dentro do agrupamento (cluster) e maximizar as diferenças entre os elementos de agrupamentos diferentes.
As técnicas de agrupamento podem ser classificadas em categorias: hierárquica e não hierárquica, na qual as técnicas hierárquicas são as mais utilizadas na literatura. Nessas técnicas hierárquicas, os objetos são classificados em grupos, em diferentes etapas, de modo hierárquico, produzindo uma árvore de classificação.
Em várias ocasiões em que a análise de agrupamento se faz presente. Na ecologia em classificação de espécies, na geografia na classificação de cidades, estados a regiões de acordo com variáveis físicas, demográficas e econômicas etc., na geoquímica na caracterização de conteúdo de minerais, na psicologia na classificação de pessoas de acordo com seus perfis de personalidade (MINGOTI, 2005).
Um questionamento importante, na análise de agrupamento, refere-se à medida a ser utilizada para se escolher até que ponto, dois elementos de um conjunto de dados são semelhantes ou não. Esta medida é chamada de coeficiente de parecença que se divide em duas categorias: medida de similaridade e dissimilaridade. Na medida de similaridade, quanto maiores os valores observados, mais semelhantes serão os objetos. Já para a medida de dissimilaridade, quanto maiores os valores observados, menos semelhantes serão os objetos.
3.6.2.1 Análise de agrupamento hierárquica (HCA)
A análise de agrupamento hierárquico (HCA) é uma técnica que tem como princípio, a identificação das características dos objetos pelas similaridades dos parâmetros processados. Para identificar, esse algoritmo busca agrupar as amostras em classes, baseando- se na similaridade dos participantes de uma mesma classe e nas diferenças entre os membros de classes diferentes.
Para análise, a primeira decisão a ser tomada, se refere à medida de similaridade que deve ser estabelecida. É indispensável decidir à priori, a medida de similaridade que será utilizada para se proceder ao agrupamento de elementos. Para isto, existem medidas apropriadas para análise de variáveis qualitativas e quantitativas. As medidas apropriadas para variáveis quantitativas também são ditas „de dissimilaridade‟. Neste caso, quanto menores os
seus valores, mais similares serão os elementos que estão sendo comparados. Algumas dessas medidas de similaridade são: distância euclidiana, distância euclidiana quadrada, distância de manhattan, distância de mahalanobis (MINGOTI, 2005; HAIR et. al., 2005).
Na HCA, de um modo geral, é a distância euclidiana, a mais utilizada, em dados de vetores, num espaço P dimensional. Onde se verifica quanto menores as distâncias mais semelhantes são as amostras, ao se calcular. Assim, a distância euclidiana é calculada com A e B no teorema de Pitágoras:
√ (Equação 2)
Ou seja, generalizando para duas amostras contendo m espécies, a distância euclidiana se expressa por (VALENTIN, 2000):
[∑ ( ) ] ⁄
(Equação 3) Onde:
Em que:
xA,j = valor da variável j para a amostra a;
xB,j = valor da variável j para a amostra b.
Nos métodos hierárquicos, várias técnicas ou critérios de agrupamentos são possíveis, dentre os quais se podem destacar o método da ligação simples ou vizinho mais próximo, o da ligação completa ou vizinha mais distante, o método da centróide e o método de Ward (ARAÚJO, 2005). Esses são explanados nos parágrafos abaixo:
36 a) Método da ligação simples
Também conhecido como método do vizinho mais próximo. Define a semelhança entre agrupamentos como a menor distância de qualquer objeto de um agrupamento a qualquer objeto no outro (HAIR et. al., 2005).
b) Método da ligação completa
Também conhecido como método do vizinho mais distante. É exatamente o inverso ao da ligação simples, ou seja, o agrupamento é formado com base na distância máxima de qualquer objeto de um agrupamento a qualquer objeto no outro.
c) Método da ligação por centróide
O centróide é o ponto médio dos pontos no espaço multidimensional e representa o centro de gravidade do respectivo grupo. Logo, a distância entre os grupos é definida pela distância entre os centróides. Em cada etapa procura-se fundir grupos que tenham a menor distância entre si (SOUSA, G., 2010).
d) Método de Ward
O método Ward agrupa os pontos de modo a minimizar o resíduo interno do grupo. Desta maneira, são formados grupos segundo a ordem de similaridade, e devido à minimização da variação interna, são construídos agrupamentos mais ou menos do mesmo tamanho O método de Ward normalmente é mais escolhido para dados discretos (HAIR et. al., 2005; SOUZA, 2010).
A HCA apresenta como resultado final um dendograma, que fornece um retrato gráfico do processo de agrupamento. A estrutura em árvore do dendograma retrata cada estágio do processo. Onde o gráfico apresenta segmentos unindo os elementos de acordo com a semelhança entre eles.
Para o processo de agrupamento é necessário outro parâmetro, o índice de similaridade conforme se verifica na Equação. Este índice de similaridade apresenta valores que variam de 0 a 1. Sendo que quando dAB é igual à dMáx., as amostras são bem distintas e o
zero, consequentemente o índice de similaridade é igual a um (BEEBE et al., 1998 apud SOUSA, G., 2010; PANERO; SILVA, 2008).
(Equação 4) Em que:
SAB é o índice de similaridade entre uma amostra A e uma amostra B;
dAB é a distância entre uma amostra A e uma amostra B;
dMÁX. é a maior distância entre duas amostras do conjunto de dados.
Na Figura 2, no eixo vertical são relatados os elementos amostrais na ordem conveniente ao agrupamento, enquanto que o índice de similaridade ou a distância se encontra na direção horizontal. Desta forma, pode-se verificar que os clusters são formados e agrupam- se de acordo com a similaridade existente entre as amostras.
Figura 2 - Exemplo de um dendograma
38 4 MATERIAL E MÉTODOS