CHAPTER 4: THE BOOM YEARS – PERVASIVE UNDERESTIMATION AS A FUNCTION OF
4.2 U NDERESTIMATING INSTITUTION LEVEL RISK
4.2.1 Risk management in a risk seeking culture - changed banking behaviour
A ideia básica desse tipo de abordagem de classificação multirrótulo con- siste basicamente em obter um ranking de rótulos para um determinado exemplo ou um ranking de exemplos para um determinado rótulo. A partir desse ranking é definido um corte para a definição de quais rótulos serão atribuídos aos exemplos a serem preditos4. As diversas técnicas propostas
são variações dessa ideia básica. A seguir são apresentados as seguintes abordagens para classificação multirrótulo por meio de ranking:
• Rank-based cut – RCut (Yang, 2001); • Proportion-based cut – PCut (Yang,2001);
• Score-based local optimization – SCut (Yang,2001); • RTCut (Yang,2001);
• SCutFBR (Yang, 2001);
• Content-based MetaLabeler – MetaC (Tang et al., 2009);
RCut Baseado no ranking de rótulos obtidos, um exemplo Ei é classificado
com os t primeiros rótulos do ranking, onde t é um parâmetro definido pelo usuário. Geralmente, o t é definido utilizando o número médio de rótulos atribuídos aos exemplos do conjunto de treinamento, i.e., a cardinalidade de rótulos. Supondo que os exemplos no conjunto de 4Esse tipo de estratégia também pode ser entendida como calibração de limiar.
treinamento apresentem em média 3,5 rótulos, o valor de t poderia ser definido como 3 ou 4.
PCut Nessa abordagem, os exemplos do conjunto de teste são ordenados
para cada rótulo yi ∈ L pela confiança de predição nesse rótulo. Para os
t primeiros exemplos do ranking, é atribuído o rótulo yi. O parâmetro
t é computado baseado na probabilidade apriori estimada no conjunto de treinamento. Essa abordagem é aplicável apenas para predição de exemplos em lote, i.e., ela necessita de todos os exemplos de testes para a realização do ranking (cenário de inferência transdutiva) e, por esse motivo, raramente é utilizada em aplicações nas quais uma nova predição deve ser realizada exemplo a exemplo (cenário de inferência indutiva).
SCut Nessa abordagem é utilizado um conjunto de exemplos de validação
para otimizar o corte t (threshold de cada rótulo para uma determinada medida de avaliação definida pelo usuário). A idéia básica é dividir o conjunto de treinamento em diferentes partições (folds) e utilizá-las para otimizar o valor de threshold de cada rótulo baseado na perfor- mance de uma determinada medida de avaliação sobre esse conjunto de validação.
RTcut Nessa abordagem, o ranking do rótulo yj, j = 1..q, para um novo
exemplo Ei é dado por um score sintético ss(yj, Ei) definido pela Equa-
ção2.2.
ss(yj, Ei) = r(yj, Ei) +
s(yj, Ei)
maxyk∈Ls(yk, Ei) + 1
(2.2) onde r(yj, Ei) é o ranking do rótulo yj para o exemplo Ei e s(yj, Ei) é o
score do rótulo yj para o exemplo Ei.
Os autores comentam que, desse modo, é possível realizar um ajuste fino no ranking e suavizar o trade-off entre precision e recall existente no método RCut.
SCutFBR Quando um rótulo está associado a um número extremamente
pequeno de exemplos de treinamento, a abordagem SCut corre o risco de sofrer o efeito de overfiting, pois os dados podem não ser suficiente- mente representativos para determinar o valor de corte, o que produ- ziria um valor muito alto (restritivo) ou muito baixo (permissivo). Um valor de corte muito restritivo resultaria em muitos falso-negativos, ou seja, exemplos que deveriam ser considerados positivos, não são pelo fato do valor corte ser muito alto. Por outro lado, um valor muito
baixo resultaria em muitos falso-positivos, i.e., muitos exemplos nega- tivos são preditos como positivo devido a um corte muito permissivo. Para resolver esse problema,Yang (2001) propõe duas variações para o SCutFBR. A primeira variação, chamada SCutFBR.0, define o valor do corte como infinito, i.e., classifica todos os exemplos para um determi- nado rótulo como negativo, o que minimiza o número de falso-positivo a custo de uma pequena queda no número de verdadeiro-positivo glo- bal, se considerado todos os rótulos, já que se trata de um rótulo raro. A outra alternativa, chamada de SCutFBR.1, define o valor de corte de maneira que apenas o exemplo do topo do ranking seja clas- sificado como positivo, o que causaria menos prejuízo ao número de falso-negativo.
MetaC Essa abordagem consiste em definir os rótulos de um novo exemplo
por meio de duas fases (Tang et al.,2009):
1. Obter um ranking dos rótulos para um novo exemplo;
2. Predizer o número de rótulos do topo do ranking a ser retornado como resposta.
Para a primeira fase, os scores de um classificador multirrótulo Binary Relevance são utilizados para obter o ranking dos rótulos para um determinado exemplo. Os autores dessa abordagem utilizaram como algoritmo-base o SVM e consequentemente os scores fornecidos por esse algoritmo para obter o ranking. No entanto, qualquer algoritmo- base que forneça scores pode ser utilizado. Na segunda fase, o número de rótulos que vai compor a resposta final é fornecido por meio de um modelo construído em duas etapas:
1. Construção de um meta conjunto de dados; 2. Aprendizado de uma meta-modelo.
A construção de um meta conjunto de dados na primeira etapa con- siste em criar um novo atributo que representa os rótulos. Esse atri- buto irá conter a quantidade de rótulos simples que cada exemplo de treinamento possui. Assim, o(s) atributo(s) que representam os rótulos são descartados e esse novo atributo passa a ser a classe do problema. Na Tabela 2.5 é exemplificada a construção de um meta conjunto de dados.
Construído o meta conjunto de dados, um algoritmo de aprendizado multi-classe constrói um meta-modelo que faz a predição da quanti- dade de rótulos t de um novo exemplo e, desse modo, os t primeiros
Tabela 2.5: Ilustração da construção de um meta conjunto de dados no algoritmo MetaC.
(a) Conjunto de dados original Y E1 Y1= {y2, y3} E2 Y2= {y1, y3, y4} E3 Y3= {y4} E4 Y4= {y2, y3} (b) Meta conjunto de dados Meta-Rótulo E1 2 E2 3 E3 1 E4 2
rótulos do ranking obtido na primeira fase são retornados como res- posta final do problema multirrótulo.