• No results found

colaboração de usuários e combinação de classi-

ficadores

Colaboração de usuários tem sido incorporada por alguns métodos (Ferreira et al., 2012b; Godoi et al., 2013; Li et al., 2011; Wang et al., 2011) juntamente com técnicas de apren- dizado de máquina para aprender uma função de desambiguação e, consequentemente, aumentar os resultados do processo de desambiguação.

Ferreira et al. (2012b) acrescentam a colaboração dos usuários ao sistema SAND (Fer- reira et al., 2010), visto na Seção 3.2, como um desambiguador de nomes de autores que trabalha em dois passos. No primeiro passo, os registros de citações são agrupados em clusters usando a relação de coautoria e seleciona alguns destes clusters cujos registros de citações serão usados como exemplos de treinamento iniciais para um próximo passo. Os registros restantes irão compor o conjunto de teste. No segundo passo, um clas- sificador associativo, que é capaz de detectar novos autores (ou seja, novas classes), é usado. Inicialmente, o classificador seleciona um percentual de predições duvidosas, ou seja, predições em que o método não é capaz de afirmar a autoria correta, e solicita aos usuários que as atribuam aos autores corretos. Depois, as predições com autores corretos são inseridas no conjunto de treinamento e usadas para prever os autores das citações do conjunto de teste.

O método proposto por Godoi et al. (2013), detecta nomes ambíguos combinando Programação Genética (GP) e classificador de Florestas de Caminhos Ótimos (OPF ) com a colaboração de usuários. Godoi et al. (2013) usam o GP para aprender funções de

Trabalhos Relacionados 25

similaridade e o OPF para rotular os registros de citações. O classificador OPF modela o problema como um problema de partição em grafo e usa funções de similaridade geradas pelo GP para fornecer os pesos das arestas. O método seleciona um número fixo de registros de citações que são os mais duvidosos rotulados pelo OPF e em uma forma iterativa, pede aos usuários os rótulos corretos (autores).

Li et al. (2011) propõem um classificador Perceptron baseado em restrições que in- corpora a colaboração de usuários com um conjunto de características extraídas de cada par de registros de citações. Primeiro, as características são usadas como entrada para o treinamento do classificador. Depois, os autores usam a função de similaridade apren- dida pelo classificador para desambiguar os registros. E, finalmente, quando os usuários encontram qualquer erro resultante do processo de desambiguação, eles os corrigem. As correções são retornadas como novas características para melhorar o modelo de classifi- cação.

Wang et al. (2011) propõem ADANA (Active Name Disambiguation) um sistema de desambiguação ativa de nomes. Os autores formalizam o modelo de desambiguação definido em grafo de fator pareado (Pairwise Factor Graph - PFG), com o objetivo de associar automaticamente pares de registros de citações da mesma pessoa. Baseado nos resultados de desambiguação obtidos pelo modelo PFG, um algoritmo de desambiguação ativa escolhe pares de registros de citações, denotados como os mais incertos, de modo a perguntar para os usuários quais artigos pertencem ao mesmo autor ou não. ADANA usa muitos atributos no processo de desambiguação, incluindo afiliação e página do autor, por exemplo.

O método proposto por este trabalho usa somente os atributos comumente encontra- dos nos registros de citações, compostos pelos nomes de autores e coautores, título do trabalho e do veículo de publicação. É também proposto um método simples para com- binar os resultados de diversos classificadores e um limiar automático para desambiguar os registros de citações.

Conjunto de classificadores (Kuncheva, 2004) tem sido usado para atingir alta acu- rácia de classificação em outros problemas. Por exemplo, em (Saha and Ekbal, 2013) é proposta uma combinação das classes preditas por diferentes classificadores usando o

26 Trabalhos Relacionados

Capítulo 4

Método proposto

Este capítulo descreve o método proposto que gera uma função de similaridade para comparar registros de citações combinando os resultados de três classificadores, além de contar com a colaboração de usuários para aumentar o desempenho da desambiguação. Primeiro, uma visão geral do método é apresentada e depois seus detalhes são descritos.

4.1

Visão geral

A Figura 4.1 mostra uma visão geral do método de desambiguação proposto. O método recebe como entrada um grupo ambíguo, isto é, um conjunto de registros de citações com nomes de autores ambíguos e produz como saída um conjunto de clusters, onde cada cluster contém idealmente um subconjunto de registros de citações que pertencem ao mesmo autor. O método é dividido em cinco passos. O primeiro passo (Geração de clusters potencialmente puros) tem como objetivo produzir clusters potencialmente puros, ou seja, clusters com a maioria dos registros de citações de um mesmo autor. Alguns destes clusters serão selecionados pelo segundo passo (Geração de exemplos de treinamento) para produzir os exemplos de treinamento iniciais. O terceiro passo (Com- binação de classificadores) usa diversos classificadores, na avaliação experimental foi usado os classificadores: SVM, KNN e RF, para aprender uma função de similaridade que verifica se dois registros de citações pertencem ao mesmo autor e, assim, gerar me- didas capazes de verificar quais os clusters contém registros de citações que pertencem

28 Método proposto

ao mesmo autor. A colaboração dos usuários pode mudar os exemplos de treinamento. E finalmente, o quinto passo (Fusão de clusters) funde os clusters restantes (produzidos pelo primeiro passo e que ainda não foram fundidos pelo passo anterior) que o método considera pertencer ao mesmo autor, usando a função de similaridade aprendida e um limiar, que é automaticamente definido baseado no número de registros de citações dos clusters. 3 4 2 5 função de similaridade Grupo ambíguo Geração de clusters potencialmente puros clusters puros Conjunto Clusters Puros Geração de exemplos de treinamento 1 Conjunto de treino amostra de treinamento Combinação de classificadores Colaboração do usuário Fusão de clusters pares de clusters fundidos Grupo desambiguado pares de clusters pares de clusters PROCESSO ITERATIVO

Figura 4.1: Uma visão geral do método proposto