2.5 Empirical Review
2.5.5 Job Security and Employee Performance
Como primeiro estudo de caso, escolhemos o conjunto de dados oa. As duas classes presentes no conjunto parecem simples de se agrupar, pois possuem estrutura homogênea e bem distribuídas entre elas (as classes são balanceadas). No entanto, algoritmos que não analisam individualmente as diferentes partes do conjunto de dados, não conseguem produzir boas partições. Isso pode ser visto na Figura 6.2 que mostra o agrupamento gerado pelos algoritmos clássicos.
400 600 800 1000 1200 1400 1000 1100 1200 1300 1400 1500 1600 1700 1800 (a) MFG 400 600 800 1000 1200 1400 1000 1100 1200 1300 1400 1500 1600 1700 1800 (b) KM 400 600 800 1000 1200 1400 1000 1100 1200 1300 1400 1500 1600 1700 1800 (c) LS 400 600 800 1000 1200 1400 1000 1100 1200 1300 1400 1500 1600 1700 1800 (d) SPC
Figura 6.2: Partições produzidas pelos algoritmos clássicos.
grupos são balanceados. No entanto, o dois algoritmos fazem suposição de Gaussianidade para cada um dos grupos.
Mais precisamente, dentro do conjunto de dados, existem cinco regiões com uma maior densidade de pontos, todas elas se encontrando na junção dos diferentes traços da figura projetada pelos dados. Sendo assim, a suposição de Gaussianidade assumida pela MFG faz com que o centro de um dos modelos criados, que é estimado em tempo de execução, fique na região com maior densidade de pontos, que é justamente onde está localizado o grupo azul da partição. A Gaussiana localizada nesse ponto, pela alta concentração de pontos, possui um pico alto e, consequentemente, só os pontos mais próximos serão atribuídos àquele grupo.
Pela natureza de funcionamento do KM, onde existe uma concorrência entre os gru- pos pelo resgate de pontos que tornem o erro quadrático médio menor, a tendência é gerar
grupos com densidades e formatos semelhantes. Esse é o caso ocorrido na partição gerada pelo KM, onde o grupo de dados foi linearmente separado, dividindo a figura praticamente ao meio.
O fato de os dados estarem formando estrutura alongadas bem homogêneas se en- caixa em um cenário indicado para o uso do LS. Entretanto, pequenas pertubações nos dados, por menores que sejam, podem fazer com que a partição gerada seja totalmente comprometida. O agrupamento mostrado ilustra um fato comum nas partições geradas por essa técnica que ocorre, principalmente, pela natureza gulosa do algoritmo: quando a distância entre pontos de grupos diferentes é menor que uma distância interna de um grupo, então, esses grupos são mesclados e um novo grupo é criado somente com aquele ponto isolado. Por esse motivo, o uso do LS não é indicado quando a região de fronteira intra-grupo não é bem-definida.
Por fim, o algoritmo SPC utiliza informações relevantes dos dados para realizar o agrupamento. O algoritmo reduz a dimensão dos dados realizando uma transformação sobre os auto-vetores da matriz de similaridade para proceder o agrupamento. Esse tipo de técnica é muito sensível ao tipo de transformação utilizada, nesse caso uma transfor- mação Gaussiana, que muitas vezes pode não ser adequada aos dados. O SPC sofre das mesmas limitações de um algoritmo usando o PIC original, pela dependência na escolha do tamanho do modelo utilizado para fazer a transformação.
Para fins de comparação, vamos analisar somente a partição gerada pelo AHTI, uma vez que os demais algoritmos produziram resultados semelhantes. A Figura6.3mostra a partição, com as regiões auxiliares, gerada pelo AHTI quando o dendrograma é cortado no segundo nível. Uma numeração referente a cada região auxiliar foi inserida no local do centro de cada uma para que a análise fique mais clara.
Como é possível notar, essa partição foi produzida utilizando 100 regiões auxiliares. O agrupamento produzido atribuiu todos os pontos aos seus devidos grupos. O ponto mais importante e, por consequência, o maior diferencial dos algoritmos propostos é o fato de agrupar cada região do conjunto de dados de forma individual, levando em conta suas particularidades estatísticas.
Apesar de conseguir resultados semelhantes utilizando uma quantidade menor de RA, optamos por usar um número maior e capturar cada detalhe dos dados. Mesmo assim, o agrupamento desse conjunto que, originalmente, possui 3521 pontos, foi feito utilizando somente as 100 RA. Com isso, o tempo de execução foi drasticamente reduzido, uma vez que todo o cálculo foi feito com pouco mais de 2% do total de pontos.
400 600 800 1000 1200 1400 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
Figura 6.3: Partição produzida pelo AHTI contendo as regiões auxiliares.
O uso de regiões auxiliares faz com que problemas que atingem LS não se apliquem ao AHTI, mesmo utilizando a mesma heurística de aglomeração. O LS se baseia na dis- tância de cada ponto para medir similaridade, e com pontos em áreas de fronteiras muito próximas, a incorporação de dois grupos é algo inevitável, como mostrada anteriormente. No caso do AHTI, a similaridade é medida entre os centros das regiões e, mesmo com pontos de grupos distintos muito próximos, os centros ainda se mantêm com uma maior distância. Isso pode ser visto analisando as RA 9, 30 e 68 da Figura6.3, que estão muito mais próximos dos centros vizinhos pertencentes ao mesmo grupo.
Aliado a isso, ainda existem os fatores estatísticos que os algoritmos propostos utili- zam. Nas mesmas RA citadas anteriormente, a distribuição dos dados dentro de cada uma determinam a grau de interação entre as RA vizinhas. Entre as RA 30 e 3 (outro grupo), por exemplo, a dispersão dos dados indica um crescimento de variação em sentidos di- ferentes, o que tornaria o PICr muito baixo entre elas, pois as Gaussianas de cada uma estariam dispostas perpendicularmente.
Esse comportamento ocorreu ao longo das regiões mais homogêneas dos grupos, onde existe um alinhamento entre as RA. Esse alinhamento não indica somente um ponto para ligação entre elas, mas também uma relação estatística de duas regiões que poderiam ser definidas utilizando uma mesma modelagem.
A relação estatística entre as partes do conjunto de dados, naturalmente, implicam em uma disposição para separação entre grupos. Isso pode ser visto quando o dendrograma referente ao agrupamento mostrado é visualizado na Figura6.41.
216178824088164971823553210042573264450370771492187241587676579249156802953693194192237478917988393626413386074465152906386999612787845 6 93397104257679520758111123624534396866155430354328488559 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figura 6.4: Dendrograma referente ao agrupamento mostrado na Figura6.3.
É fácil perceber através do dendrograma que existem, naturalmente, dois grupos mai- ores. Se um corte for realizado no segundo nível, a partição produzida é a analisada anteriormente.