• No results found

Chapter IV: Climate Effects of Existing International Agreements Regulating

4.2 SO 2 regulations

A abordagem baseada em dicionário utiliza uma lista de termos para identificar ocorrências de termos no texto. Casamento de padrão geralmente é utilizado entre as entradas contidas no dicionário e as palavras encontradas nas sentenças. Nadeau e Sekine (2007) apresentam algumas técnicas que pode ser utilizadas para reconhecimento e classificação de entidade nomeada como e lematização (apresentadas na Seção 2.1.1), distância de edição (TSURUOKA; TSUJII, 2003 apud NADEAU; SEKINE, 2007) e algoritmo Soundex (RAGHAVAN; ALLAN, 2004 apud NADEAU; SEKINE, 2007).

Bancos de dados biológicos armazenam informações de conceitos da biologia como genes, estrutura de proteínas, informações sobre reações químicas, doenças e organismos (REBHOLZ-SCHUHMANN; KIRSCH; COUTO, 2005). Ainda segundo Rebholz-

Capítulo 3 - Extração Automática 42 Schuhmann, Kirsch e Couto (2005), alguns recursos terminológicos podem ajudar a relacionar essas informações biológicas, que são citadas em publicações científicas, com informações armazenadas em um banco de dados. Exemplos desses recursos são: Gene Ontology (GO) e

Unified Medical Language System (UMLS).

Ao contrário dos nomes de pessoas e locais no domínio geral, nomes de proteínas e genes têm sido gerenciados por meio de banco de dados por grandes organizações como o NCBI (http://www.ncbi.nlm.nih.gov/) e o European Bioinformatics Institute

(http://www.ebi.ac.uk/) (PARK; KIM, 2006). Exemplos desses bancos de dados são: LocusLink, informações de gene (http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene); SWISS-PROT, proteínas (http://www.expasy.org/sprot/); FlyBase, informações de gene, especificamente da Drosófila, espécie de pequenas moscas (http://flybase.org/); e GenBank, sequências de nucleotídeos e aminoácidos (http://www.ncbi.nlm.nih.gov/Genbank/).

Em seguida são apresentados alguns trabalhos que utilizam a abordagem baseada em dicionário que, por sua vez, é povoado com informações de algum banco de dados, como os citados anteriormente. São descritos trabalhos que extraem informações sobre gene, proteína e interações de proteína-proteína. Algumas técnicas são utilizadas para aumentar a probabilidade das palavras do dicionário serem identificadas no texto, como: stemming (ONO et al., 2001) e lematização (SCHUEMIE et al., 2007) para padronizar, respectivamente, palavras pelo radical e pela forma básica sem número e gênero; stopwords (KOU; COHEN; MURPHY, 2005) para diminuir os falsos positivos; e aproximação de string (KRAUTHAMMER et al., 2000; TSURUOKA; TSUJII, 2004) que calcula a similaridade entre palavras.

Trabalhos que utilizam Dicionário para Extração de Informação

As principais informações dos trabalhos que serão apresentados a seguir são resumidas na Tabela 3. Destacam-se as técnicas utilizadas para extrair informação e se foi utilizado um etiquetador Part-Of-Speech (POS), qual o dicionário utilizado, o domínio de atuação da extração, e por fim, quais os valores de precisão e revocação que foram obtidos na extração de informação.

Krauthammer et al. (2000) combinam nomes de proteína e gene contidos em um dicionário com o BLAST (i.e., ferramenta de comparação de sequências de nucleotídeos e aminoácidos). Os nomes são convertidos em uma sequência de nucleotídeos que é o formato de entrada do BLAST, substituindo cada caractere do nome com uma combinação única de nucleotídeo (exemplo na Tabela 4). Esses nomes são extraídos do banco de dados GenBank.

Capítulo 3 - Extração Automática 43 Dos nomes que não foram incluídos no banco de dados 4,4% foram identificados. Precisão e revocação obtidas foram, respectivamente, de 71,7% e 78,8%.

Tabela 3 – Resumo dos trabalhos com dicionário. Autor Técnicas Etiquetador

POS Dicionário Domínio Precisão Revocação

Krauthammer et al. (2000)

Aproximação

(BLAST) Não GenBank¹

Proteína e Gene 71,7% 78,8% Ono et al. (2001) Etiquetador de Brill e stemming Sim Construção manual Interações proteína- proteína 94% 84,6% Tsuruoka et al. (2004) Aproximação (distância de edição) e expansão com UMLS

Não UMLS² Proteína 71,7% 62,3%

Egorov et al. (2004) Tokenização e abreviação Não LocusLink e outras bases¹ Proteína (mamífero) 98% 88% Kou et al. (2005) HMM, Etiquetador de Brill e stopwords

Sim PIR-NREF¹ Proteína 50,1% 68,8%

Schuemie et

al. (2007) Várias regras Não

Vários bancos de dados

Proteína e

Gene --- --- ¹ Banco de dados utilizado para construir o dicionário.

² Recurso terminológico utilizado para obter termos biomédicos.

Tabela 4 – Exemplo de tradução para o formato do BLAST.

Fonte: Adaptado de Krauthammer et al. (2000).

Tabela de conversão A AAAC G AAGC P ACCC Z AGAT 1 AGCG

Exemplo zgap1 AGATAAGCAAACACCCAGCG

Ono et al. (2001) propõem um método para extrair informação de interações de proteína-proteína de resumos do MEDLINE utilizando um dicionário que contém nomes de proteínas (i.e., somente proteínas de levedura e Escherichia coli), padrões de palavra e simples regras de POS (etiquetador de Brill). O método de extração automática identifica nomes de proteínas na sentença, usando um dicionário construído manualmente. Em seguida, a sentença é processada com regras de POS e então, são extraídas interações de proteína- proteína utilizando casamento de padrão. O dicionário construído contém 6.084 moléculas e 16.722 sinônimos (para as proteínas de levedura) e 4.405 termos (para a proteína E.coli). A média da precisão e da revocação alcançada para as proteínas é, respectivamente, de 94% e 84,6%.

Capítulo 3 - Extração Automática 44 Outro método baseado em dicionário é proposto por Tsuruoka e Tsujii (2004) que tem como objetivo reconhecer nomes de proteínas. Este trabalho pode ser dividido em duas fases: na primeira fase foram identificados os textos candidatos usando um dicionário; na segunda fase, os textos candidatos foram filtrados por meio do algoritmo de aprendizado de máquina Naïve Bayes, obtendo uma melhora da medida-F de 10,8% e aumentando a precisão com uma pequena perda de revocação. Para atenuar o problema de baixa revocação causado pelas variações da ortografia foram utilizadas duas técnicas: a primeira usa um algoritmo de procura de string por aproximação (i.e., distância de edição) ao invés de procura de string por casamento exato; a segunda expande o dicionário utilizando o UMLS (http://www.nlm.nih.gov/research/umls/) com a geração de variações de palavras. Com o uso dessas técnicas obteve-se uma melhora de 1,6%. A precisão e revocação obtidas foram, respectivamente, 71,7% e 62,3%.

ProtScan é um sistema desenvolvido por Egorov, Yuryev e Daraselia (2004) que utiliza uma abordagem baseada em dicionário para identificação de nomes de proteínas da classe mamífero em resumos do MEDLINE. São construídos dois dicionários: um deles serve para identificar os nomes nas sentenças; o outro serve para eliminar os falsos positivos e evitar desambiguação. Os dicionários foram gerados a partir do banco de dados LocusLink e de outras bases. Técnicas como algoritmo de tokenização e de abreviação são utilizadas. Obteve-se uma precisão de 98% e revocação de 88%.

Kou, Cohen e Murphy (2005) propõem um novo método de aprendizado denominado Dict-HMMs em que um dicionário é convertido para um modelo oculto de Markov (HMM) que reconhece frases do dicionário, assim como as variações destas frases. Dict-HMMs extrai somente nomes de proteínas que tem uma alta similaridade com os nomes armazenados no dicionário. O método proposto foi testado com três bancos de dados: a média da precisão e revocação com esses bancos foi, respectivamente, 50,1% e 68,8%. O Dict-HMMs obteve melhor revocação em comparação com alguns sistemas anteriores, os quais obtiveram uma melhor precisão. Assim, o diferencial deste sistema é a revocação. A vantagem é que o modelo pode ser treinado com uma pequena quantidade de dados. O etiquetador POS utilizado foi o de Brill. Essa pequena quantidade de dados é selecionada dos nomes de proteínas mais relevantes contidos no dicionário. O dicionário utilizado foi o PIR-NREF (http://pir.georgetown.edu/) que contém aproximadamente 500.000 nomes de proteínas.

Schuemie et al. (2007) avaliaram algumas técnicas para aumentar a revocação na identificação de nomes de genes e proteínas, utilizando a combinação de um dicionário construído a partir de informações armazenadas em vários bancos de dados com regras para

Capítulo 3 - Extração Automática 45 gerar variações de ortografia. Uma lista de regras é utilizada de trabalhos anteriores. Schuemie et al. (2007), além de utilizarem várias regras geradas por trabalhos anteriores, acrescentam algumas, por exemplo: se os termos contêm letras e números, então desconsidera-se a diferença de maiúscula e minúscula. Testes foram realizados com todas as regras (aumentando consideravelmente a revocação e diminuindo a precisão) e com algumas regras (diminuiu um pouco a revocação, mas aumentou a precisão). Apesar de várias regras serem utilizadas, muitas não influenciaram a revocação e algumas influenciaram negativamente a precisão. Em suma, a combinação dos bancos de dados aumentou significantemente a revocação em comparação com o uso de um único banco de dados. A precisão e a revocação foram avaliadas em três diferentes conjuntos de dados e com quatro tipos de organismos. Como o resultado em cada conjunto é discrepante, não foi possível obter uma média realista dessas medidas.