Com o objetivo de otimizar a curva ROC para classificadores bin´arios baseados em redes MLP, alguns trabalhos na literatura (Everson & Fieldsend,2006a;Graening et al., 2006; Kupinski & Anastasio, 1999; Sanchez et al., 2005), formularam o problema do aprendizado como um problema de otimiza¸c˜ao multiobjetivo, da seguinte forma,
argw max (min) (
J0(w)
J1(w) (3.34)
onde w ´e conjunto de parˆametros (pesos) e as fun¸c˜oes custo J0(w) e J1(w) cor- respondem a m´etricas extra´ıdas da matriz confus˜ao que medem o desempenho obtido pela rede para as classes T0 e T1, respectivamente. EmKupinski & Anasta-
sio (1999), os autores usaram J1(w) = T P r(w) e J0(w) = T Nr(w); em Sanchez
et al. (2005) e Everson & Fieldsend (2006a) foram adotados J1(w) = F Nr(w) e J0(w) = F P r(w); e, no trabalho de Graening et al. (2006), foram sugeridos J1(w) = T P r(w) e J0(w) = F P r(w).
Em todos os trabalhos, algoritmos evolucion´arios multiobjetivo foram esco- lhidos para solucionar o problema (3.34). Ao final do processo de aprendizado, os algoritmos retornam uma estimativa para o conjunto de solu¸c˜oes n˜ao domi- nadas1 denominado conjunto Pareto-´otimo. Todas as solu¸c˜oes s˜ao equivalentes na
1Considerando um problema de otimiza¸c˜ao multiobjetivo em que todos os funcionais J
k,
com k ∈ {0, 1}, devem ser minimizados, uma solu¸c˜ao w∗´e dita ser n˜ao dominada, se n˜ao existe
qualquer outra solu¸c˜ao w tal que J(w) ≤ J(w∗) e Jk(w) < Jk(w∗) para no m´ınimo um ´ındice
3.3 Conclus˜oes do cap´ıtulo
ausˆencia de qualquer informa¸c˜ao referente aos objetivos J0(w) e J1(w) e podem ser interpretadas como pontos de opera¸c˜ao de uma curva ROC ´otima.
Nos trabalhos supracitados n˜ao foi proposta nenhuma estrat´egia de decis˜ao para a escolha de uma solu¸c˜ao (ou ponto de opera¸c˜ao) no conjunto Pareto-´otimo. Os autores deixam a cargo do usu´ario escolher a solu¸c˜ao cujo desempenho seja mais apropriado para a tarefa de aprendizado em quest˜ao.
3.3
Conclus˜oes do cap´ıtulo
Esse cap´ıtulo forneceu uma revis˜ao bibliogr´afica sobre a pesquisa desenvolvida no ˆambito do aprendizado com dados desbalanceados. Foi visto que em cen´arios apresentando graus elevados de desequil´ıbrio entre as classes, a melhor estrat´egia ´e avaliar modelos usando crit´erios que dissociam o desempenho por classe, com base na matriz de confus˜ao. Foi tamb´em recomendado o uso de medidas alter- nativas que focam na detec¸c˜ao da classe menos representativa (de interesse) ou consideram com mesma importˆancia a discrimina¸c˜ao de ambas as classes, tais como F-measure e G-mean.
Ainda no escopo de m´etricas de avalia¸c˜ao, foram descritos os princ´ıpios da an´alise ROC (Receiver Operating Characteristic). Foi visto que os gr´aficos ROC s˜ao ferramentas ´uteis em cen´arios desbalanceados, desde que eles permitem com- parar modelos contrastando seus desempenhos de detec¸c˜ao (taxas de verdadeiros positivos) sobre uma faixa de distribui¸c˜oes a priori (ou valores de limiar). Al´em disso, eles podem ser usados para a sele¸c˜ao de pontos de opera¸c˜ao, segundo um crit´erio adotado pelo usu´ario. Foi tamb´em chamada a aten¸c˜ao para a in- dependˆencia das curvas ROC em rela¸c˜ao `as prioris das classes: se a propor¸c˜ao entre positivos e negativos muda na popula¸c˜ao alvo, sobre a qual o classificador ´e aplicado, a curva ROC n˜ao muda (Fawcett, 2006). Isso faz com que a m´etrica AUC, que corresponde `a ´area abaixo da Curva ROC, leve vantagem sobre uma s´erie de medidas, tais como acur´acia (taxa de erro) e precision, que s˜ao direta- mente influenciadas por mudan¸cas nas distribui¸c˜oes das classes.
Na segunda parte do cap´ıtulo foi abordado o estado da arte das solu¸c˜oes pro- postas para o problema de classes desbalanceadas. Tais solu¸c˜oes foram divididas
3.3 Conclus˜oes do cap´ıtulo
aprendizado. Dentro dessa ´ultima categoria, foram descritos os principais tra- balhos cujas propostas foram baseadas em modifica¸c˜oes de fun¸c˜oes custo, no contexto de m´aquinas de kernel e redes MLP.
Cap´ıtulo 4
Algoritmos Propostos
A an´alise do problema de classes desbalanceadas realizada no Cap´ıtulo2demons- trou que o vi´es imposto pela classe majorit´aria est´a principalmente relacionado ao crit´erio otimizado no processo de aprendizado. Como a maioria dos algoritmos ´e projetada para minimizar uma aproxima¸c˜ao emp´ırica da probabilidade do erro global de classifica¸c˜ao, o problema surge intrinsecamente.
Nesse cap´ıtulo, novos algoritmos de aprendizado s˜ao propostos com o ob- jetivo de melhorar o desempenho de redes MultiLayer Perceptron (MLP) em aplica¸c˜oes desbalanceadas. A metodologia adotada no desenvolvimento dos algo- ritmos consistiu em reformular o treinamento padr˜ao de MLPs, partindo-se da id´eia de se considerar os desempenhos individuais por classe. Com base nesse ponto vista, crit´erios espec´ıficos para sele¸c˜ao de modelos puderam ser projetados com o prop´osito de atender as necessidades do problema em foco. S˜ao prioriza- das taxas de acerto elevadas e equilibradas para ambas e classes, bem como a melhoria da qualidade do ranking de classifica¸c˜ao.
O primeiro algoritmo de aprendizado, denominado WEMLP (Pondera¸c˜ao de Erros), otimiza uma fun¸c˜ao custo que permite ponderar as importˆancias das classes no treinamento. A motiva¸c˜ao te´orica por tr´as de WEMLP est´a na vi- ola¸c˜ao da premissa de custos (perdas) iguais assumida rede pela MLP tradicional (baseada no erro global). Adicionalmente, a possibilidade de incorpora¸c˜ao de informa¸c˜ao a priori a partir de um parˆametro de custo, como na formula¸c˜ao do risco Bayesiano (Duda et al.,2000), pode levar a modelos que n˜ao favorecem uma
4.1 Rede MLP
O segundo algoritmo de aprendizado, denominado AUCMLP (Otimiza¸c˜ao da AUC ), aposta no conceito da maximiza¸c˜ao da “distˆancia” entre as densidades das sa´ıdas (scores) produzidas pela MLP para as classes em separado. Formal- mente, isso equivale `a otimizar a m´etrica AUC (Area Under the ROC Curve). As principais motiva¸c˜oes te´oricas de AUCMLP est˜ao na independˆencia em rela¸c˜ao `as distribui¸c˜oes a priori apresentada pela AUC, bem como sua rela¸c˜ao com a qua- lidade do ranking de classifica¸c˜ao. Em contraste com a taxa de erro global, tais propriedades podem proporcionar vantagens pr´aticas em problemas com n´ıveis elevados de desbalanceamento e sobreposi¸c˜ao entre as classes.
Na parte final do cap´ıtulo, as formula¸c˜oes propostas para WEMLP e AUCMLP s˜ao estendidas com o prop´osito de se controlar a complexidade (fle- xibilidade) dos modelos selecionados no processo de aprendizado. Isso ´e feito seguindo a metodologia do aprendizado multiobjetivo (MOBJ) para MLPs, pro- posta inicialmente em Teixeira et al. (2000).
O texto encontra-se organizado da seguinte forma: a Se¸c˜ao 4.1 descreve a topologia de rede MLP assim como a nota¸c˜ao adotada na descri¸c˜ao dos algorit- mos. Os fundamentos te´oricos de WEMLP e AUCMLP s˜ao fornecidos, respecti- vamente, nas Se¸c˜oes 4.2 e 4.3. As extens˜oes multiobjetivo s˜ao apresentadas na Se¸c˜ao 4.4. Por ´ultimo, a Se¸c˜ao 4.5 traz as conclus˜oes do cap´ıtulo.
4.1
Rede MLP
Como o escopo dos algoritmos propostos na tese ´e limitado a problemas bin´arios (contendo somente duas classes), considere uma rede MLP com n entradas, uma camada escondida com h unidades (neurˆonios) e uma camada de sa´ıda contendo uma ´unica unidade, conforme ilustrado pela Figura4.1.
O valor de sa´ıda obtido na unidade escondida s da rede, como consequˆencia da apresenta¸c˜ao de um vetor de entrada x = {x1, x2, . . . , xn}, ´e dado pela seguinte express˜ao, zs= φ (us) = φ n X r=0 wsrxr ! (4.1)