CHAPTER 4: THE BOOM YEARS – PERVASIVE UNDERESTIMATION AS A FUNCTION OF
4.2 U NDERESTIMATING INSTITUTION LEVEL RISK
4.2.2 Insufficient precautionary policies - the weakness of the supervisory body
O aprendizado multirrótulo tem sido utilizado em variados domínios nos últimos anos. Nesta seção são descritas algumas das aplicações realiza- das utilizando aprendizado multirrótulo, bem como os conjuntos de dados benchmark correspondentes e suas características.
Marketing direto Um exemplo dessa aplicação foi apresentado em (Zhang,
2006) e tem como objetivo identificar quais produtos um determinado cliente está interessado em comprar baseado no seu histórico e em da- dos demográficos. Nesse trabalho foi utilizado um conjunto de dados com 19 rótulos que representam categorias de produtos e foi cons- truído um conjunto de dados contendo respostas de clientes quanto
ao interesse nos produtos. Como o cliente pode estar interessado em mais de um grupo de produtos ao mesmo tempo, essa é uma tarefa de aprendizado multirrótulo. Dessa maneira, criado o modelo multir- rótulo, foi possível oferecer aos clientes um conjunto de produtos que potencialmente lhe interessavam.
Categorização de documentos textuais Diversos trabalhos relacionados à
categorização de documentos textuais foram realizados. Um exemplo desse tipo de aplicação é a categorização de notícias. Uma notícia pode pertencer simultaneamente à categoria Ciência/Tecnologia e à História/Cultura, como no caso de uma notícia sobre a Máquina de An- ticítera9, um artefato antigo para auxílio à navegação. Outro conjunto de dados multirrótulo muito utilizado em categorização de textos é o Reuters Corpus Volume I – RCV1, o qual contém mais de 800.000 notí- cias classificadas e disponibilizadas pela empresa Reuters, Ltd10. Esse
tipo de aplicação apresenta em torno de 100 rótulos e 47.000 atributos descritores, dependendo da versão do conjunto de dados, o que torna necessária a aplicação de algoritmos computacionalmente eficientes.
Classificação de e-mails Um dos projetos relacionados, denominado UC
Berkeley Enron Email Analysis, tem como objetivo classificar os e-mails da empresa Enron11 em diversas categorias12, tais como: Negócios da
empresa, Puramente pessoal, Pessoal mas com contexto de negócio, Hu- mor, Admiração, entre outros. As categorias são organizadas em uma hierarquia de dois níveis e um exemplo também pode ser associado a mais de uma dessas categorias. O conjunto de dados possui 1702 exemplos, 53 rótulos e, em média, 3,4 rótulos por exemplo.
Classificação de páginas Web Um exemplo desse tipo de aplicação é re-
alizado pela Yahoo! Directory13, o qual disponibiliza um diretório de
categorias e websites ligadas ao domínio “yahoo.com”. As categorias desse diretório são organizadas em uma hierarquia, a qual contém no primeiro nível 14 categorias, como Artes e Humanidade, Negócios e Economia, Computadores e Internet, entre outros.
Anotação de imagem e video Esse tipo de tarefa consiste em identificar
automaticamente por meio de classificação multirrótulo objetos ou contextos contidos em imagens e vídeos. Uma aplicação denominada
9http://en.wikipedia.org/wiki/Antikythera_mechanism
10http://www.reuters.com/
11http://www.enron.com/
12http://bailando.sims.berkeley.edu/enron/enron_categories.txt
Scene (Boutell et al., 2004), consiste em um problema de classifica- ção semântica de cenas, na qual uma cena da natureza pode conter múltiplos objetos tais como um campo com montanhas ao fundo. Um conjunto de dados com 2407 imagens foi construído para esse pro- blema, contendo 6 rótulos e, em média, 1,1 rótulos por exemplo. Esse tipo de aplicação pode ser estendida para categorização de cenas de vídeos (Worring et al., 2007). O conjunto de dados Mediamill14 é um
exemplo de dados desse tipo de aplicação, na qual foram registradas 85 horas de vídeo de fontes de notícias. No total, 43907 quadros foram capturados e categorizados em 101 rótulos/conceitos como Futebol, Comida, Praia, entre outros. Cada quadro contém, em média, 4,4 ró- tulos nesse conjunto de dados.
Identificação de funções de proteínas Uma aplicação muito utilizada em
biologia consiste em identificar automaticamente funções de proteínas. Essa é uma tarefa multirrótulo, pois uma determinada proteína tem potencial para ter mais de 190 funções (Elisseeff e Weston, 2001). O conjunto de dados Yeast é um exemplo desse tipo de aplicação. Nesse conjunto de dados são registradas informações sobre a estrutura mo- lecular e sobre funções da levedura Saccharomyces cerevisiae intei- ramente sequenciada. O conjunto contém 2417 exemplos, rotulados com até 14 funções extraídas do primeiro nível do catálogo de funções FunCat15. Os exemplos contém, em média, 4,2 rótulos nessa conjunto de dados.
Sugestões de Tags em sistemas Web 2.0 A sugestão de Tags pode ser des-
crita como o processo de atribuir a objetos de informação pequenas descrições textuais ou palavras-chaves (chamadas de Tags). É uma abordagem simples de organização de informações que foi muito uti- lizada na ultima década. Publicações científicas, por exemplo, são frequentemente acompanhadas de palavras-chave que podem ser atri- buídas livremente pelos autores ou selecionadas de uma ontologia, por exemplo a ACM Computing Classification16. Um exemplo de conjunto
de dados de sugestões de Tags é o Delicious17, o qual tem como ob-
jetivo atribuir tags aos websites favoritos em um sistema Web 2.0. O desafio desse tipo de aplicação é o grande número de tags envolvidas e a necessidade de rápida predição online das tags. O benchmark desse conjunto de dados contém 983 rótulos e 160105 exemplos com 19 ró-
14http://www.science.uva.nl/research/mediamill/
15http://mips.helmholtz-muenchen.de/proj/funcatDB/search_main_frame.html
16http://www.acm.org/about/class/how-to-use
tulos por exemplo, em média.