• No results found

2. Teoretiske betraktninger

2.3 Ledelse kan ikke læres

A abordagem proposta nesta Tese consiste de um framework para a an´alise explo- rat´oria de dados via agrupamento que facilite o trabalho dos especialistas do dom´ınio dos dados, resolvendo de maneira integrada muitas das dificuldades comumente encontradas na an´alise de agrupamento.

O framework proposto se aplica a dois contextos diferentes, com pequenas modifi- ca¸c˜oes. O primeiro contexto se refere `a an´alise de agrupamento totalmente n˜ao super- visionada. O segundo, envolve a an´alise de agrupamento considerando o conhecimento pr´evio de uma estrutura presente nos dados, ou seja, uma an´alise semi-supervisionada.

O ponto central do framework ´e um algoritmo de ensemble multi-objetivo, MOCLE (do inglˆes Multi-Objective Clustering Ensemble), que integra a sa´ıda (output) de diversos algoritmos de agrupamento, t´ecnicas de valida¸c˜ao e ensemble de agrupamentos em uma abordagem multi-objetivo, para encontrar um conjunto de estruturas que podem conter informa¸c˜oes relevantes para os especialistas no dom´ınio dos dados. Al´em disso, no con- texto semi-supervisionado, o conhecimento pr´evio de uma estrutura dos dados ´e utilizado para auxiliar na obten¸c˜ao de outras estruturas. Ainda nesse contexto, ´e considerado um esquema para visualiza¸c˜ao das estruturas resultantes que facilita sua an´alise simultˆanea. Nesta Tese, o termo estrutura se refere a uma parti¸c˜ao do conjunto de dados.

O algoritmo MOCLE, como qualquer ensemble, pode ser dividido em dois blocos: (1) gera¸c˜ao de um conjunto diverso de parti¸c˜oes iniciais a serem combinadas e (2) deter- mina¸c˜ao do consenso. O MOCLE difere dos ensembles tradicionais em dois aspectos, relacionados `a obten¸c˜ao do consenso.

1.3 Abordagem Proposta

de uma ´unica parti¸c˜ao. Na verdade, o conjunto de solu¸c˜oes que o MOCLE retorna pode conter tanto parti¸c˜oes que resultam da combina¸c˜ao de outras parti¸c˜oes, quanto parti¸c˜oes de alta qualidade que j´a apareciam dentre as parti¸c˜oes iniciais. A segunda diferen¸ca do MOCLE em rela¸c˜ao aos demais ensembles ´e que ele combina pares de parti¸c˜oes, iterativa- mente, em um processo de otimiza¸c˜ao que garante diferentes compromissos de qualidade das solu¸c˜oes. Com isso, o MOCLE consegue evitar a influˆencia negativa das parti¸c˜oes iniciais de baixa qualidade que afeta as abordagens tradicionais de ensemble.

Mais precisamente, o MOCLE deve ser iniciado com a gera¸c˜ao de um conjunto de parti¸c˜oes iniciais por meio da aplica¸c˜ao de v´arios algoritmos de agrupamento conceitual- mente diferentes aos dados, tamb´em considerando v´arias configura¸c˜oes de parˆametros. Isso garante a diversidade das parti¸c˜oes iniciais do ensemble. Em seguida, essas parti¸c˜oes iniciais s˜ao utilizadas como popula¸c˜ao inicial para um algoritmo gen´etico multi-objetivo baseado em Pareto. Esse algoritmo vai selecionar e combinar as parti¸c˜oes iniciais por meio de duas caracter´ısticas particulares: (1) um operador de recombina¸c˜ao especial, que encontra o consenso entre duas parti¸c˜oes pais, e (2) a otimiza¸c˜ao de fun¸c˜oes objetivo que representam diferentes medidas de qualidade de uma parti¸c˜ao.

O operador de recombina¸c˜ao proposto fornece a caracter´ıstica de ensemble ao MOCLE, o que o diferencia da abordagem de agrupamento multi-objetivo pura.

Com essas caracter´ısticas, o MOCLE faz uma sele¸c˜ao autom´atica das parti¸c˜oes mais significativas, dentre as iniciais e as combina¸c˜oes, sem que sejam necess´arios muitos ajustes de parˆametros e nem conhecimento profundo em an´alise de agrupamento. Com isso, ele supera as dificuldades da an´alise de agrupamento tradicional. Mais ainda, a integra¸c˜ao das abordagens de ensemble e agrupamento multi-objetivo permite superar as dificuldades individuais de ambas as abordagens. Al´em disso, por meio das fun¸c˜oes objetivo, o MOCLE permite a integra¸c˜ao do conhecimento pr´evio de uma estrutura simples dos dados na busca por outras estruturas mais complexas.

Em resumo, o MOCLE constitui uma abordagem robusta para lidar com diferentes tipos de estrutura (parti¸c˜ao) que podem estar presentes nos dados, fornecendo como resultado um conjunto conciso e est´avel de estruturas alternativas de elevada qualidade, sem a necessidade de conhecimento pr´evio dos dados e nem conhecimento profundo em an´alise de agrupamento.

Al´em do MOCLE, o framework proposto engloba ainda um m´etodo para a visualiza¸c˜ao simultˆanea de um conjunto de parti¸c˜oes que auxilia na an´alise do conjunto de solu¸c˜oes do MOCLE. Esse m´etodo de visualiza¸c˜ao ´e baseado em um esquema para colorir uma parti¸c˜ao que associa cores a cada um de seus clusters. O m´etodo se aplica ao contexto semi-supervisionado, necessitando do conhecimento pr´evio de uma estrutura dos dados. Al´em de parte integrante do framework, o m´etodo de visualiza¸c˜ao pode ser visto como uma

contribui¸c˜ao independente dele, facilitando a an´alise de qualquer conjunto de parti¸c˜oes e complementando as informa¸c˜oes que podem ser obtidas com ´ındices de valida¸c˜ao externa nas compara¸c˜oes entre v´arias t´ecnicas de agrupamento.

O emprego do framework no contexto semi-supervisionado, ou seja, considerando a fun¸c˜ao objetivo apropriada e/ou o m´etodo de visualiza¸c˜ao, d´a a ele o car´ater autom´atico para a utiliza¸c˜ao de conhecimento pr´evio para a obten¸c˜ao de novas estruturas, que facilita o trabalho dos especialistas ao investigar a existˆencia de subclasses em dados com classes conhecidas, como mencionado nas Se¸c˜oes 1.1 e 1.2.