• No results found

1. Introduction

5.0 Results

Assim como o nome sugere, essa estrat´egia reduz o problema de classificac¸˜ao original para v´arios problemas locais no qual, para cada n´o pai, um classificador ´e constru´ıdo. Usando a hierarquia da Figura 4.5, em sua fase de treino, um classificador ´e treinado para os n´os “Raiz, 1 e 2”. Nota-se que um n´o extra ´e adicionado como “Raiz” da hierarquia. Os classificadores trei- nados s˜ao capazes de distinguir apenas entre seus n´os filhos. Desta maneira, cada classificador ´e respons´avel por diferenciar menos classes, e consequentemente, tende a ser mais eficiente.

1 Raiz 2 1/1 1/2 2/1 2/2 0.6 0.3 0.6 0.4 0.7 0.4

Figura 4.5: Funcionamento da estrat´egia LCPN. Neste caso, um classificador ´e treinado para os n´os internos (Raiz, 1 e 2)

Na fase de teste, uma abordagem Top-Down ´e utilizada. A partir do classificador do n´o “Raiz”, cada instˆancia ´e classificada entre seus n´os filhos. A classe obtida para o n´o em quest˜ao, ´e expandida, de maneira que a instˆancia ´e testada novamente usando o classificador associado ao n´o predito. Esse processo se repete at´e que um n´o folha seja atingido. Consequentemente, a classificac¸˜ao final ´e composta da concatenac¸˜ao das classificac¸˜oes obtidas da raiz at´e uma folha. Tomando a Figura 4.5 como exemplo e as probabilidades preditas por seus classificadores, o exemplo testado seria classificado como 1/2, pois, o classificador do n´o “Raiz” obteve a classificac¸˜ao 1 (60% de probabilidade) e em seguida, o classificador do n´o “1” classificou a instˆancia como 2 (60% de probabilidade).

4.2 Abordagem Local 57

Esta estrat´egia de teste apresenta vantagens e desvantagens. Como benef´ıcio, inconsistˆencias de classificac¸˜ao n˜ao s˜ao poss´ıveis, pois a classificac¸˜ao de uma instˆancia sempre corresponde a um caminho. Como inconveniˆencia, erros provenientes de camadas superiores s˜ao propagados para n´ıveis mais profundos (NAKANO et al., 2017a).

Tamb´em ´e v´alido notar que a estrat´egia de treino permite a paralelizac¸˜ao do treino dos classificadores. Entretanto, na fase de teste, esta paralelizac¸˜ao n˜ao ´e poss´ıvel, visto que o clas- sificador a ser utilizado depende diretamente da classificac¸˜ao oriunda do n´ıvel anterior. Ainda, classificac¸˜oes N ˜ao obrigat ´oria n˜ao s˜ao poss´ıveis, tornando necess´ario o uso de estrat´egias para reduzir a profundidade das classificac¸˜oes.

A Subsec¸˜ao 4.2.2.1 apresenta trabalhos que aplicam a estrat´egia LCPN, juntamente com t´ecnicas de decis˜ao para definir qual n´o expandir, visando diminuir a propagac¸˜ao de erros.

4.2.2.1 Trabalhos Relacionados

Uma t´ecnica denominada Selective Top-Down ´e proposta no trabalho de Secker (SECKER et al., 2007). Para o treinamento de cada classificador, v´arios tipos de classificadores s˜ao testados, aquele que apresentar maior desempenho em um conjunto de validac¸˜ao ´e selecionado. Apesar de obter melhores resultados que a estrat´egia Top-Down cl´assica, erros ainda s˜ao propagados.

Uma extens˜ao do trabalho de Secker (SECKER et al., 2007) ´e proposta em (SECKER et al., 2010). Desta vez, al´em dos classificadores, atributos tamb´em s˜ao selecionados. Ao contr´arios das t´ecnicas de selec¸˜ao de atributos tradicionais que s˜ao aplicadas somente uma vez no conjunto de dados, a estrat´egia proposta aplica separadamente a selec¸˜ao de atributos para cada classifica- dor da hierarquia, resultando em diferentes atributos para cada classificador. Um trabalho muito semelhante a este, por´em em outra aplicac¸˜ao, ´e apresentado por Silla (JR; FREITAS, 2011).

O trabalho de Wang (WANG; ZHAO; LU, 2014) tamb´em investiga a aplicac¸˜ao de t´ecnicas de Meta-Learning para minimizac¸˜ao do erro. Essa t´ecnica treina um meta-classificador para definir qual n´o deve ser expandido em cada n´ıvel da hierarquia. O meta-classificador utiliza os atributos do conjunto de dados, juntamente com v´arios meta-atributos, como probabilidade m´edia e m´ınima de um n´o, para sua construc¸˜ao.

O trabalho de Zhu (ZHU; WEI; NGO, 2014) emprega as probabilidades dos n´os filhos e netos para definir qual o n´o a ser expandido. Esta t´ecnica foi desenvolvida exclusivamente para pro- blemas HSC, e visa descobrir uma matriz de pesos respons´avel por auxiliar na decis˜ao do n´o a ser expandido utilizando probabilidades de predic¸˜oes.

milares que usam todos os classificadores. A primeira consiste em ordenar as probabilidades de todos os n´os e selecionar a classificac¸˜ao consistente com maior probabilidade. Esta t´ecnica ´e simples, por´em ´e afetada por n´os com poucos filhos, pois suas probabilidades s˜ao altas. A segunda emprega a multiplicac¸˜ao das probabilidades segundo um ramo da hierarquia, podendo sofrer com erros num´ericos devido `a multiplicac¸˜ao de valores pequenos. A terceira consiste na m´edia das probabilidades, mostrando-se a melhor das trˆes, devido a simplicidade e eficiˆencia. Todas estas t´ecnicas s˜ao espec´ıficas para problemas cuja hierarquia ´e uma ´arvore e permitem somente uma classe por n´ıvel.

Hernandez (HERN´aNDEZ; SUCAR; MORALES, 2014) tamb´em prop˜oem a utilizac¸˜ao de todos n´os classificadores para obtenc¸˜ao da classificac¸˜ao final. A escolha da classificac¸˜ao final reside na multiplicac¸˜ao direta das probabilidades, o ramo com maior probabilidade ´e escolhido como classificac¸˜ao final. Esta t´ecnica ´e espec´ıfica para problemas hier´arquicos HSC e consegue lidar com ambos tipos de hierarquia. Ainda, baseia-se no teorema de Bayes, pois busca-se obter a maior probabilidade conjunta, entretanto ao reduzir a decis˜ao para uma simples multiplicac¸˜ao, assume-se independˆencia condicional entre superclasses e subclasses.

O trabalho de Naik (NAIK; RANGWALA, 2016) emprega uma reduc¸˜ao na hierarquia por meio de eliminac¸˜ao de n´os. Com base em um limiar calculado automaticamente, os autores imple- mentam duas t´ecnicas, uma local e uma global, ambas utilizando a m´edia das probabilidades das classes multiplicado pelo seu desvio padr˜ao, e um parˆametro de normalizac¸˜ao. Entretanto, a local considera somente os n´os de um n´ıvel, enquanto a global utiliza todos os n´os da hierarquia. Consequentemente, a local achata n´ıveis inteiros da hierarquia, e a global, por sua vez, elimina n´os espec´ıficos. Seus resultados mostram que a estrat´egia global obteve melhor desempenho.