O primeiro algoritmo aplicado no domínio foi o K-means. Como definido pelo valor de entrada, cada aplicação gerou três clusters resultantes. Cada cluster resultante está
Figura 7.5: Método do Cotovelo nos meses analisados de 2017
Figura 7.6: Método do Cotovelo nos meses analisados de 2018
descrito nas figuras presentes no Anexo I.
Médias
A semelhança das médias dos atributos dos clusters resultantes permite a identificação entre resultados. Para exemplificar essa afirmação, observe o Cluster 1 exibido na Figura I.3, este que possui médias e população semelhante ao Cluster 1 da Figura I.6 e do Cluster 2 da Figura I.5.
Esse resultado evidencia que o algoritmo produziu os mesmo clusters em todas suas aplicações, entretanto a ordem não foi mantida. Caso os clusters resultantes não fossem tão diferentes, a tarefa de identificação seria mais complexa.
Utilizando a primeira execução do algoritmo no mês de Junho de 2017, Figura I.2, como base, foi criado um gráfico para ilustrar as médias de cada atributo, relacionando-as com seus respectivos clusters. Tal gráfico está exibido na Figura 7.8. Para melhor compreensão, cada média foi normalizada para uma porcentagem em relação ao seu valor máximo possível. O gráfico evidencia a tendência de que as maiores médias dos atributos estudados estão presentes no clusters com menor representatividade em relação à população total.
7.2.2
WARD
O segundo algoritmo aplicado foi o WARD. Igualmente ao algoritmo anterior, a execução gerou três clusters para cada mês. A descrição estatística de cada cluster gerado está presentes nas figuras presentes no Anexo I.
Médias
A identificação de clusters realizada no algoritmo anterior pode ser replicada neste resul- tado. Entretanto, o Cluster 1 identificado na aplicação do mês Junho de 2017, na Figura I.9, permanece como Cluster 1 em cada aplicação subsequente, característica observada nos Clusters 2 e 3 do mesmo modo.
Esse caráter consistente de geração de cluster pode ser aproveitado em análises sequen- ciais cuja distância temporal de bases sejam distantes a ponto de dificultar a identificação de cada cluster formado em relação a um estado passado.
Assim como realizado com o algoritmo K-means, a Figura 7.9 mostra as porcentagens relativas as médias dos clusters identificados no resultado do algoritmo WARD. Apesar da semelhança entre médias, o valores dos clusters resultantes não são iguais, os valores de avaliação da clusterização identificarão quais clusters resultantes são mais próximos da realidade.
7.2.3
DBSCAN
Após a a execução da clusterização hierárquica, o método aplicado em sequência foi o baseado em densidade. Diferentemente dos algoritmos anteriores, o DBSCAN não requer um número de clusters como entrada. Este foi o algoritmo que gerou mais clusters para cada uma de suas aplicações. Os clusters gerados estão descritos nas figuras presentes no Anexo I.
Médias
Como o algoritmo não é tendencioso quanto ao número de clusters que serão formados em seu resultado esse número variou ao longo da aplicações. Devido à grande quantidade de clusters formados, a identificação de um cluster resultante de um mês em outro mês foi dificultada. Apenas os Clusters 1, 2, 3, 4 e 7 do mês Junho de 2017 foram relacionados em todos os meses. Fato que dificultou ainda mais a análise dos clusters foi que a característica determinística do algoritmo em conjunto com a seleção randômica de personagens não possibilitou que o algoritmo gerasse os clusters na mesma ordem.
Focando nos Clusters que foram identificados em todos os meses, a Figura 7.10 exibe a porcentagem das médias dos atributos desses clusters. Apesar de não ser consistente em seu resultado, esse algoritmo identificou, com frequência, clusters não identificados por outros algoritmos até agora.
7.2.4
BANG
O algoritmo BANG foi executado depois da aplicação do algoritmo baseado em densi- dade. Semelhantemente ao algoritmo anterior, a definição de um número de cluster não é requisitada. Entretanto, ao contrário do resultado obtido com o DBSCAN, a finalização deste algoritmo não resultou em múltiplos clusters. O algoritmo não conseguiu identificar diferentes clusters em nenhum dos meses aplicados. Uma hipótese para tal resultado é a dificuldade em gerar grades para domínios com muitas dimensões. O resultado está evidenciado na figura presentes no Anexo I.
7.2.5
SOM
A clusterização aplicada em seguida representou a metodologia Model-Based. O algoritmo
SOM resultou nos clusters descritos nas figuras presentes no Anexo I. Assim como outros
algoritmos, o SOM necessitou de um número de clusters como entrada, logo sua execução criou três clusters.
Figura 7.10: Porcentagens média de cada Cluster Resultante do DBSCAN
Médias
Ao observar os clusters resultantes, é notável que as médias do primeiro cluster formado no primeiro mês são muito semelhantes às médias do primeiro cluster de cada mês. Essa consistência é persistida em todos clusters formados por esse algoritmo.
Seguindo o processo executado com os algoritmos anteriores, o gráfico contido na Figura 7.11 descreve as porcentagens das médias dos atributos de cada cluster identificado no resultado.
Se compararmos o resultado deste algoritmo com o resultado do algoritmo K-means, a diferença entre resultados é a menor entre qualquer outra comparação de clusters resultan- tes. Ou seja, ambas clusterizações identificaram os mesmos clusters, mas este algoritmo produziu resultados com maior consistência.
7.2.6
Spectral
A execução do algoritmo Spectral foi realizada após a metodologia baseada em modelo. Os clusters resultantes estão descritos nas figuras presentes no Anexo I. Este algoritmo faz parte do conjunto de algoritmos que foram iniciados com o número de cluster pré- definidos. Consequentemente, o resultado de cada mês contém três clusters.
Figura 7.11: Porcentagens média de cada Cluster Resultante do SOM
Médias
O gráfico resultante das médias deste algoritmo está exibido na Figura 7.12. Analisando os resultados, foi possível identificar a existência consistente de dois clusters, o primeiro e terceiro cluster criados no mês Junho de 2017. Estes foram encontrados no meses seguintes, enquanto o Cluster 2 desse mesmo mês não foi identificado nos meses seguintes sendo substituído por outro cluster com médias semelhantes, mas diferentes para serem diferenciados. Uma possível explicação é que as porcentagens do mês de Junho de 2017 foram retiradas no final da segunda expansão do jogo, logo elas podem representar o potencial final do Cluster 2 no meses subsequentes. A consistência desse algoritmo foi quebrada no mês de Junho de 2018, ao identificar o Cluster 3 de meses anteriores como Cluster 2.
7.2.7
Fuzzy C-means
O último algoritmo a ser executado foi o representante da metodologia Difusa, Fuzzy
C-means. Como o algoritmo anterior, o Fuzzy C-means resultou em três clusters devido
ao valor de entrada. As figuras presentes no Anexo mostram as descrições dos clusters resultantes.
Figura 7.12: Porcentagens média de cada Cluster Resultante do Spectral
Médias
Apesar da característica de que um elemento de dado possa pertencer a mais de um cluster, o resultado deste algoritmo não apresentou nenhum personagem em mais de um cluster. Fato evidenciado pela soma dos membros de todos clusters em cada mês ser igual ao tamanho do domínio.
Observando o gráfico gerado pela porcentagem das médias dos clusters identificados exibido na Figura 7.13, a semelhança com os clusters formados pelos algoritmos SOM e K-means é evidente. Outra peculiaridade importante a se ressaltar é a consistência presente nos clusters resultantes. Como em outros algoritmos anteriores, o Cluster 1 do mês de Junho de 2017 é o mesmo identificado nos Clusters 1 de cada mês subsequente. Ocorrência que se manteve para os Clusters 2 e 3.
7.3
Avaliações
O foco desta seção inclui as avaliações realizadas sobre o resulado das clusterizações e da base de dados. Conjuntamente, uma comparação de performance de cada algoritmo e o esforço de atribuição de perfis a clusters descobertos são relatados nesta seção.
Figura 7.13: Porcentagens média de cada Cluster Resultante do C-means
7.3.1
Estatística Hopkins
A aplicação da Estatística de Hopkins foi realizada em cada um dos meses para validar a distribuição dos objetos de dados. O resultado desta aplicação está exposto no gráfico da Figura 7.14. O resultado da estatística foi constantemente relatado como superior à 0, 965. Esses valores evidenciam a alta tendência à clusterização do domínio explorado. Logo, tais resultados confirmam a hipótese de que a base de dados do Final Fantasy XIV contém o potencial para análises de agrupamentos.