A análise de agrupamentos ou Cluster foi utilizada por classificar objetos de modo que cada objeto fosse o mais similar possível a outros no agrupamento em relação a um conjunto de características selecionadas. Nessa pesquisa, os objetos foram os valores médios das variáveis selecionados pelos componentes principais. Os agrupamentos resultantes de objetos exibiram elevada homogeneidade interna e elevada heterogeneidade externa (entre agrupamentos). Esse processo mostrou assim, que os objetos estão próximos uns dos outros quando representados geometricamente e diferentes agrupamentos estão distantes entre si.
Entende-se, portanto, que os papéis mais comuns executados pela Análise Cluster serão:
Redução de dados;
1) Geração de hipóteses, na qual a análise de agrupamentos é utilizada para desenvolver as hipóteses sobre a natureza dos dados ou para desenvolver hipóteses previamente estabelecidas.
O número de grupos foi obtido baseado no método unweighted pair-group, com distância euclidiana do tipo desvio padrão. A tipologia resultante foi utilizada para avaliar o perfil econômico das UPAFs a nível de comunidades e agrega-lo à participação efetiva da mulher como protagonista da logística microeconômica local.
5.6.1 Distinção entre as várias medidas de distância
Diversas medidas de distâncias estão disponíveis, cada uma com características específicas. Distância euclidiana é a mais comumente reconhecida, muitas vezes chamada de distância em linha reta. A distância euclidiana entre dois pontos é o comprimento da hipotenusa de um triângulo retângulo. Neste trabalho foi considerado que o agrupamento ou classificação de indivíduos consiste em formar grupos de indivíduos homogêneos enquanto as
variáveis são heterogêneas a respeito dos outros grupos: ―Dado um conjunto de indivíduos
(M) e tendo de cada um deles uma informação (N), a análise será capaz de classificá-los em grupos de maneira que os indivíduos pertençam a um grupo (sempre com respeito à informação que se dispõe) sendo tão semelhantes quanto possível‖ (SANCHEZ–CARRION, 1984).
Como em outras técnicas de análises de dados, parte-se de uma matriz de variáveis/objetos através das coordenadas fatoriais das componentes principais previamente identificadas pela ACP. As variáveis não são dependentes e, portanto, se deve ter um especial cuidado na seleção das mesmas (SANCHES – CARRION, 1984). Em muitas ocasiões esta seleção se realiza através de uma análise fatorial prévia, como foi o caso deste trabalho, onde a análise cluster foi aplicada mediante as variáveis extraídas da ACP.
Depois de eliminar o conjunto de indivíduos classificados e eleger as variáveis caracterizadoras desses indivíduos, foi preciso definir a distância entre indivíduos (eleição dos critérios de classificação) e estabelecer uma distância entre os grupos de indivíduos (eleição de critério de agregação). A distância é uma mesma medida de similaridade, de tal maneira
que quanto menor é a distância entre os indivíduos, maior é a sua semelhança, e vice-versa. Entre as distâncias que se podem utilizar estão: a euclidiana, X2, Mahalanobis.
Segundo Morrison (1976), ―a distância euclidiana, quando for estimada a partir das
variáveis originais, apresenta a inconveniência de ser influenciada pela escala, de medida pelo número de variáveis e pela correlação existente entre as mesmas‖. Para contornar as escalas, faz-se a padronização das variáveis em estudo, para que possuam a variância igual à unidade.
Conforme Ferreira (1996), ‖a distância de Mahalanobis, considera a variabilidade de cada unidade amostral, sendo recomendada para dados provenientes de delineamento
experimentais, e, principalmente, quando as variáveis são correlacionadas‖. Quando as
correlações entre as variáveis forem nulas, verificam-se as variáveis padronizadas, e a distância de Mahalanobis D² é equivalente à distância euclidiana.
Para definir a maneira de formar os grupos existem vários métodos entre os quais se encontram os hierárquicos. Dentre estes se podem distinguir ascendentes ou aglomerativos e os descendentes ou dissociativos. Estes últimos partem do conjunto de indivíduos como um conglomerado único e eles vão dividir a muitos grupos como indivíduos (conglomerado de maior homogeneidade e mais simplicidade). Os ascendentes se caracterizam por um processo interativo em que em cada etapa se agrupam conglomerados de unidades da etapa anterior (partindo-se de n indivíduos, depois de cada interação resulta-se n-1 elementos), formando
uma árvore cuja representação gráfica recebe o nome de ―dendograma‖, até um conglomerado
que engloba a totalidade. Detém-se o processo em um momento intermediário obtendo um número de agrupamentos intermediários entre o momento inicial (tantos grupos como indivíduos) e finalmente (um único grupo que inclui todos os indivíduos).
Entre os critérios de agregação possíveis para estabelecer a distância entre os grupos estão a da média das distâncias ponderadas, a distância mínima e a distância máxima do momento de ordená-los. Procede-se então à aplicação das várias distâncias, observando qual delas permite a formação de grupos com número de indivíduos mais balanceado juntamente ao menor número de indivíduos não agrupados.
5.6.2 Fundamentos práticos
Para o desenvolvimento da análise Cluster realizada neste trabalho foram utilizadas, as variáveis da análise fatorial. Todas as classificações dos fatores obtidos foram divididas em análises fatoriais prévias pela medida utilizada enquanto o cálculo das distâncias foi igual aos
das análises fatoriais de X2. Foi realizada uma Classificação Hierárquica Ascendente de Momento de Ordem Dois, como critério de agregação.
A informação de saída para executar o programa foi a seguinte:
Nós da árvore hierárquica e Nível de Inércia extraída por cada dicotomia da
árvore. Este último permite evidenciar os pontos de ruptura mais adequados para obter os grupos.
Representação gráfica do Dendograma ou Árvore Hierárquica. Contribuições das variáveis e dos Nós.
Relação de indivíduos que pertencem a cada grupo estabelecido.
Ajuda a interpretação da participação: variância total, variância intraclasse,
coeficiente de variância intraclasse/variância total, contribuição das variáveis ou dos grupos e contribuição das variáveis.
Ajuda a interpretação dos grupos: cálculo dos centros de gravidade.