• No results found

3 Resultater

3.3 HPI-akseresponsen

3.3.2 Negativ tilbakekoblingstest

Os valores de acurácia e AUC mostrados na Tabela 5.4 indicam o desempe- nho preditivo dos meta-modelos para o cenário 1. Os valores obtidos para cada medida sugerem uma similaridade na capacidade preditiva dos meta-modelos induzidos por diferentes técnicas de AM. Apesar dos valores de acurácia te- rem sido superiores a 50%, o desempenho dos meta-modelos foi influenciado pelas instâncias replicadas. A replicação resultou em instâncias diferentes com valor igual para um dado meta-atributo e valor diferente para o meta- atributo alvo. Desse modo, as instâncias replicadas dificultam o aprendizado do modelo classificador.

Tabela 5.4: Acurácia e AUC dos classificadores para a abordagem de decom-

posição de instâncias multirrótulo — instâncias de PCV geradas empirica- mente.

Medidas K-NN AD SVM NB

Acurácia 0.52±0.06 0.54±0.08 0.53±0.06 0.53±0.03 AUC 0.79±0.08 0.77±0.07 0.75±0.07 0.74±0.08

No cenário 2, os classificadores induzidos tiveram um desempenho melhor do que no cenário anterior, conforme pode ser observado os resultados na Ta- bela 5.5. Esse resultado já era esperado, pois todos os meta-exemplos multir- rótulos foram eliminados e, consequentemente, não houve inconsistência no conjunto de meta-dados. No entanto, a abordagem aplicada para esse cenário é somente recomendável quando a quantidade de instâncias multirrótulos não é significativa, ou seja, as instâncias remanescentes do problema continuam sendo representativas e apropriadas para a indução do meta-modelo.

Tabela 5.5: Acurácia e AUC dos classificadores para a abordagem de elimina-

ção de instâncias multirrótulo — instâncias de PCV geradas empiricamente.

Medidas K-NN AD SVM NB

Acurácia 0.63±0.07 0.64±0.05 0.63±0.07 0.63±0.04 AUC 0.88±0.06 0.81±0.07 0.84±0.07 0.84±0.09

Os resultados obtidos para o cenário 3 podem ser visualizados na Tabela 5.6. O uso de quatro MHs candidatas implicou na replicação de quatro con-

5.1. CLASSIFICAÇÃO MULTIRRÓTULO EM EXEMPLOS SINTÉTICOS DE

PCV 85

juntos de meta-dados para classificação binária. Para cada conjunto de meta- dados, uma das MHs foi considerada como a classe positiva e as demais como a classe negativa. Os classificadores tiveram desempenhos similares para as diferentes classes, sendo que alguns foram melhores para uma das classes, como, por exemplo: a técnica NB, que foi melhor para predizer a classe AG, enquanto a técnica AD foi a melhor para predizer a classe GRASP. Os resulta- dos preditivos mensurados pela AUC podem ser considerados muito bons em termos práticos, levando em conta à complexidade do problema investigado.

Tabela 5.6: Acurácia e AUC dos classificadores para a abordagem de trans-

formação baseada em rótulos — instâncias de PCV geradas empiricamente.

Medidas K-NN AD SVM NB

Acurácia - Classe TB 0.80 0.88 0.81 0.77

AUC - Classe TB 0.90 0.93 0.79 0.81

Acurácia - Classe GRASP 0.86 0.95 0.82 0.71 AUC - Classe GRASP 0.93 0.98 0.80 0.81 Acurácia - Classe SA 0.79 0.85 0.82 0.72

AUC - Classe SA 0.89 0.93 0.78 0.78

Acurácia - Classe AG 0.87 0.92 0.86 0.84

AUC - Classe AG 0.92 0.94 0.79 0.88

Ainda no cenário 3, a medida “HammingLoss” (De Carvalho e Freitas, 2009) foi também usada para mensurar a qualidade preditiva dos meta-modelos. Essa medida é apropriada para problemas de classificação multirrótulo por- que calcula a diferença de simetria entre o conjunto de classes preditas e o conjunto de classes verdadeiras para cada instância. Quanto menor o va- lor obtido para essa medida, melhor é o desempenho do classificador. A Ta- bela 5.7 mostra o desempenho dos classificadores obtidos a partir da medida “HammingLoss” para o cenário 3. Particularmente para este cenário, o cál- culo da acurácia foi realizado conforme proposto em (Tsoumakas e Katakis, 2007) e a AUC foi calculada a partir dos valores obtidos por classe. Como a metodologia usada para calcular o desempenho preditivo dos meta-modelos no terceiro cenário é diferente daquela que foi usada nos dois primeiros, não é possível fazer uma comparação entre cenários.

Comparando o desempenho preditivo dos diferentes classificadores indu- zidos por cada cenário, a Figura 5.1 mostra uma similaridade no desempe- nho dos classificadores tanto para o cenário 1 quanto para o cenário 2. No terceiro cenário, houve uma divergência maior entre o desempenho preditivo dos meta-modelos. A principal razão para essa diferença está na técnica de classificação multirrótulo adotada para esse cenário. A indução de múltiplos modelos e a avaliação preditiva condicionada para cada meta-exemplo podem favorecer o viés de uma determinada técnica de AM. Outro aspecto relevante

Tabela 5.7: Resultado de medidas específicas para a classificação multirrótulo

baseada em rótulos — instâncias de PCV geradas empiricamente.

Medidas K-NN AD SVM NB

Acurácia 0.62±0.07 0.73±0.07 0.56±0.07 0.30±0.11

AUC 0.91±0.02 0.95±0.02 0.79±0.01 0.82±0.04

HammingLoss 0.17±0.03 0.10±0.03 0.18±0.03 0.24±0.03

nesse cenário é o elevado custo computacional, pois um meta-modelo deve ser induzido separadamente para cada conjunto de meta-dados resultante, de modo que a classificação multirrótulo para um meta-exemplo é a combinação das classes indicadas por todos os meta-modelos. Em todos os cenários, o de- sempenho preditivo foi superior a 50%, mostrando o potencial da abordagem de meta-aprendizado na recomendação de MHs para novas instâncias de PCV.

Figura 5.1: Acurácia dos modelos de classificação nos conjuntos de PCV sin-

téticos resultantes da aplicação de três técnicas de classificação multirrótulo.

A fim de verificar a existência de diferenças significativas no desempenho dos meta-modelos induzidos por diferentes técnicas de AM, testes estatísti- cos foram realizados. Para esses experimentos, seguimos o estudo de Demsar (Demšar, 2006), que essencialmente aplica o Teste de Friedman e, quando a hipótese nula (algoritmos apresentaram o mesmo desempenho) foi rejeitada para um determinado valor de alfa (nível de significância), o Teste de Nemenyi foi aplicado para comparar o desempenho de dois algoritmos diferentes. O Teste de Nemenyi avalia as diferenças entre as posições médias referentes à ordem de desempenho de diferentes algoritmos aplicados a diferentes conjun- tos de dados.