Analysis, Discussion and Conclusion
7.3 Fragmentation and complexity: implications for scaling of DHIS
Como já abordado nos procedimentos metodológicos, a Análise de Conglomerado ou Cluster Analysis tem como objetivo agrupar os casos observados de acordo com as similaridades de suas respostas, para que se possa organizar um grupo de respondentes por determinadas características.
O método utilizado como técnica de agrupamento foi do tipo two-step. Este método une as técnicas de agrupamento utilizadas no método hierárquico e não- hierárquico (k-means). Como medida de (dis)similaridade, utilizou-se o quadro da distância euclidiana, em que se traça uma linha reta entre os pontos e se calcula essa distância como hipotenusa do triângulo reto formado entre os respectivos pontos. A distância euclidiana também é chamada de distância de linha reta. A distância euclidiana é o quadrado da soma das diferenças entre os valores que os casos assumem para as variáveis.
O número de clusters foi designado ao SPSS e forçou a divisão dos dados em quatro categorias. A classificação foi examinada pelo software. Apesar de não mostrar o máximo de significância na análise, ficou dentro dos limites aceitáveis nas pesquisas sociais.
Na literatura, os termos “Colinearidade” e “Multicolinearidade” são utilizados para indicar a existência de forte correlação entre duas (ou mais) variáveis independentes. A presença da colinearidade pode enviesar o agrupamento, pois variáveis que têm forte correlação não podem ser analisadas isoladamente. Por isso, foi necessário verificar se as variáveis eram altamente correlacionadas.
Nesta tese, as variáveis, em seu estado original, antes de serem fatoradas, eram muito correlacionadas, conforme pode ser visto na matriz de correlação, no Apêndice 5.
Em função disso, a ideia original de dividir a amostra de cursos em agrupamentos diretamente pelos valores apresentados em suas variáveis originais foi abandonada.
De acordo com a Análise Fatorial desenvolvida acima, a questão da colinearidade foi resolvida utilizando-se os escores fatoriais. Porém, segundo Mooi e Sarstedt (2011), mesmo diante dessa técnica outros problemas podem diminuir a qualidade da divisão dos clusters. Os dados já estão transformados, pré-processados, não são mais originais, o que levará a outros resultados, se fossem utilizados as variáveis ao invés dos dados. A solução fatorial também não explica a totalidade da variação, o que implica que alguma informação foi descartada. Por fim, segundo Mooi e Sarstedt (2011), caso as variáveis não apresentem alta colinearidade, não haveria vantagem significativa em diferenciar grupos pelos escores fatoriais.
As variáveis categóricas (nominais e ordinais) da amostra não foram consideradas para efeito de dissimilaridade entre os grupos. Isso porque, ao permitir que os valores dessas variáveis pudessem formar o algoritmo de dissimilaridade, eles seriam os maiores influenciadores da divisão, influenciando o software a dividir a amostra entre instituições públicas e privadas, universidades ou faculdades, institutos e escolas autônomas. Como o objetivo era a divisão pelas atividades ligadas à interdisciplinaridade, as variáveis categóricas não foram utilizadas como algoritmo de divisão da amostra.
A análise de conglomerados ou aglomerados ou ainda clusters analysis é uma ferramenta multivariada que tem como objetivo agrupar dados de acordo com a similaridade entre eles, por meio de algoritmos de classificação (VIALI, 2012). É uma técnica em que é possível a formação de grupos homogêneos de dados, considerando um critério de separação dos dados.
Segundo Pohlman (2012), o grupo resultante dessa classificação deve então exibir um alto grau de homogeneidade interna (within-cluster) e alta hetorogeneidade externa (between-cluster). Desse modo, se a classificação for bem sucedida, os objetos dentro do grupo estarão juntos quando “plotados” geometricamente, e os diferentes grupos formados estarão distantes uns dos outros. Ela é utilizada em diversas disciplinas como a Psicologia, a Biologia, a Sociologia, a Economia, a Engenharia, a Administração e a Contabilidade.
Apesar de diferentes denominações, todos os métodos têm uma dimensão comum: sua classificação de acordo com relacionamentos naturais. Essa dimensão representa a essência de todas as abordagens de agrupamentos.
A análise de conglomerados, nesta tese, foi construída em seis etapas para o desenvolvimento dos clusters (grupos) de casos. Aqui os casos são os cursos de Administração com base em Pohlman (2012).
Etapa 1: Objetivo da Análise de Conglomerados – Formar grupos de cursos de Administração segundo a intensidade das atividades de interdisciplinaridade que apresentam. Primeiramente compreender quais são as similaridades e dissimilaridades das atividades de interdisciplinaridade entre os cursos. Em segundo plano, simplificar os dados, formando uma taxonomia, uma classificação dos cursos com base empírica.
Etapa 2: Delineamento da Análise de Conglomerados – Escolher o método de análise das distâncias. Neste caso, a medida foi a do vizinho mais próximo (nearest
neighbor) e a distância euclidiana.
Etapa 3: Pressupostos da Análise de Conglomerado – Segundo Phlman (2012), a análise de conglomerados não é uma técnica de inferência estatística em que parâmetros de uma amostra são avaliados como sendo provavelmente representativos da população. Em vez disso, é um método para quantificar características estruturais em um conjunto de observações. Como tal, ela tem propriedades matemáticas fortes, mas não têm fundamentos estatísticos. Os requisitos de normalidade, linearidade e homoscedasticidade têm pouca significância na Análise de Conglomerados. Os requisitos necessários para se obter resultados válidos da Análise de Conglomerados são a representatividade da amostra e o impacto da multicolinearidade.
Representatividade da amostra: Na tese, a população estimada (N) de cursos de Administração no Brasil era de 1.669 em 2009 (Inep/MEC, 2013). Obteve-se o cadastro de 1.145 coordenadores de cursos, dos quais 389 foram considerados válidos (n). No caso desta tese, o tamanho dos 389 respondentes foi considerado significativo.
Multicolinearidade: Este aspecto pode comprometer os resultados da Análise Cluster, pois, como as variáveis são altamente correlacionadas, não é ideal dividi-las em grupo para análise. Como apurado na Tabela 15, as variáveis da amostra se mostravam altamente correlacionadas. Para sua correção, como sugere Mooi e Sarstedt (2011), é possível a utilização dos escores fatoriais, cientes dos prejuízos que os resultados
sobre os escores podem causar e da possibilidade de os escores fatoriais também não apresentarem multicolinearidade.
Etapa 4: Determinação e Avaliação dos Grupos – Nesta tese, determinou-se o algoritmo mais apropriado, ou seja, o que maximizava a diferença entre os grupos em confronto com a variação entre os mesmos. O procedimento de divisão foi hierárquico e aglomerativo, ou seja, os dados foram processados caso a caso, e a análise de cada caso dependeu dos grupos formados nos casos anteriores, e assim sucessivamente em todo o conjunto de observações pelo método centroide.
Etapa 5: Interpretação dos Grupos – Essa atividade consiste em prover significado para avaliar a correspondência dos resultados com as proposições oferecidas pela teoria. Além disso, os perfis dos grupos oferecem uma rota para obter avaliações de significado prático. As variáveis categóricas foram utilizadas para identificação dos perfis de cada grupo da amostra.
Etapa 6: Validação e Definição dos Perfis dos Grupos – Uma técnica possível para testar a validade dos perfis dos grupos encontrados é dividir a amostra em dois grupos. Cada uma é analisada separadamente, e os resultados são comparados. Nesta tese, este procedimento foi realizado, e os resultados foram semelhantes.