Chapter VI: Methods for Comparing Gases
6.3 Global Warming Potentials
Regras permitem descrever, precisamente, os elementos de um conjunto, seja este finito ou infinito, sem a necessidade de enumerá-los explicitamente. A seguir alguns exemplos de padrões extraídos a partir de regras:
O padrão a seguir identifica sentenças ou grupos de sentenças que contenham variações da palavra "interact", tendo no meio da sentença o nome de um gene “genexx” e que contenha variações da palavra "bind" (GHANEM et al., 2002).
Os dois padrões a seguir encontram relacionamento entre gene e doença. Para identificação desses relacionamentos pode-se utilizar análise linguística e semântica (COHEN, K.; HUNTER, 2008).
Em seguida serão apresentados alguns trabalhos que utilizam regras para extrair informação no domínio biomédico.
Trabalhos que utilizam Regras para Extração de Informação
Serão apresentados três trabalhos de diferentes autores e anos que utilizam essencialmente regras para extrair informação de resumos do MEDLINE, com ou sem o auxílio de um dicionário. Na extração de informação a técnica de Processamento de Língua
Capítulo 3 - Extração Automática 46 Natural Part-Of-Speech (POS) pode ser utilizada. Os níveis de extração podem variar de nomes simples ou compostos, ou frase. A quantidade de resumos do MEDLINE utilizado para avaliar a extração de informação também é mostrada. As principais informações são resumidas na Tabela 5.
Tabela 5 – Trabalhos com regras.
Autor Etiquetador POS Extração Níveis de Dicionário
Resumos do MEDLINE
Sistema Domínio Medida-F
Fukuda et al. (1998) Não Nome simples e composto
Não 30 KeX Proteína 96,7%
Franzén et al. (2002) Não Nome simples e composto
Sim 200 YaPex Proteína
KeX = 49,5% Yapes = 77,1% Hu et al.
(2005) Sim Frase Não 300
RLIMS- P
Fosforilação
de Proteína 92,7%
PROPER (PROtein Proper-noun phrase Extracting Rules), introduzido por Fukuda et al. (1998), é um método baseado em regras e um dos primeiros sistemas que extrai nomes de proteínas em publicações biológicas. As regras são geradas manualmente para extrair termos simples e compostos sem utilizar um dicionário. Obteve-se uma medida-F de 96,7% em 30 resumos do MEDLINE sobre a proteína SH3. As regras codificadas manualmente com base em observação do conjunto de dados contribuíram para o alto desempenho do método. A partir do método PROPER, foi desenvolvido o sistema de extração de informação KeX (http://www.hgc.jp/service/tooldoc/KeX/intro.html).
Franzén et al. (2002) desenvolveram o sistema YaPex para identificação automática de nomes de proteínas em 200 resumos do MEDLINE que utiliza regras desenvolvidas manualmente. O YaPex (http://www.sics.se/humle/projects/prothalt/) consiste de duas análises: léxica e sintática. Na primeira são selecionadas, por exemplo, as palavras com sufixos (e.g., -ase e -in) e que contenham letras maiúsculas ou números (e.g., HsMad2, U3- 55k). Na segunda utiliza-se o analisador gramatical ENFDB para identificar nomes simples ou compostos. Os nomes de proteínas identificados são armazenados em um dicionário para ajudar na seleção de novos termos que não foram identificados pelo ENFDG. Para isso, utilizam-se as variações desses nomes para encontrar palavras similares no texto. O banco de dados SWISS-PROT auxilia na identificação dos termos principais. Algumas heurísticas de Fukuda et al. (1998) são utilizadas na análise léxica. Expressões regulares são aplicadas para reduzir a baixa precisão, por exemplo: padrões de sufixos de palavras (nomes de substâncias
Capítulo 3 - Extração Automática 47 químicas) ou palavras e expressões de fórmulas químicas, expressões aritméticas e sequências de aminoácidos.
Comparando-se os sistemas YaPex e KeX, o YaPex identificou mais nomes de proteínas do que o KeX. Franzén et al. (2002) avaliaram que o analisador sintático ENFDG contribuiu nessa identificação, selecionando adequadamente nomes simples e compostos. Seis diferentes análises foram realizadas para avaliar os sistemas. A maior diferença de medida-F entre os dois sistemas foi no limite right (i.e., nome que encontra-se do lado direito de uma sentença), respectivamente, de 77,1% e 49,5%.
Outro sistema baseado em regras é o RLIMS-P (Rule-based LIterature Mining System
for Protein Phosphorylation), cujo objetivo é extrair informação de fosforilação de proteína
de resumos do MEDLINE (HU et al., 2005). Foi desenvolvido com base no algoritmo de Ravikumar (2004 apud HU et al., 2005). Padrões foram criados depois de examinar diferentes formas usadas para descrever interações de fosforilação em 300 resumos do MEDLINE e 10 artigos.
Dois tipos de tarefas foram implementadas no sistema RLIMS-P: citation mapping e
evidence tagging. A primeira tem a função de recuperar informação de artigos do MEDLINE
relacionados à fosforilação, para a qual obteve precisão e revocação, respectivamente, de 91,4% e 96,4%. A segunda tem o objetivo de extrair informação sobre fosforilação dos artigos anotados, para a qual obteve precisão e revocação, respectivamente, de 97,9% e 88,0%. medida-F é de 92,7%.
O sistema RLIMS-P utiliza shallow parsing e extrai informação do texto utilizando casamento de padrões desenvolvidos manualmente. No pré-processamento, o texto é dividido em sentenças e tokenizado por palavras e pontuação. Cada palavra é associada às etiquetas POS, como advérbio, verbos, adjetivos, etc. Utiliza reconhecimento de entidade nomeada para detectar acrônimo e termo (NARAYANASWAMY; RAVIKUMAR; VIJAY-SHANKER, 2003 apud HU et al., 2005).
As sentenças podem ser casadas com um simples padrão “ AGENT phosphorylate THEME at SITE ”, onde AGENT representa uma enzima (e.g., quinase catalisadora de fosforilação), THEME significa um substrato (i.e., proteína sendo fosforilada) e SITE indica um P-Site (i.e., resíduo de aminoácido sendo fosforilado). Este passo é para detectar sentenças com estrutura sintática de acordo com o padrão estabelecido, por exemplo: “Active
p90Rsk2 was found to be able to phosphorylate histone H3 at Ser10”. São usados alguns
Capítulo 3 - Extração Automática 48 Classificação semântica é utilizada no sistema RLIMS-P para melhorar a precisão da extração de frases com substantivo. A classificação utiliza sufixos, frases e palavras informativas, por exemplo, “mitogen activated protein kinase” é classificada como uma proteína por causa da palavra-chave “kinase”. Outras regras e heurísticas são desenvolvidas com base na detecção de apositivo, conjunção e pares (i.e., sentença e acrônimo). Um exemplo de um par sentença/acrônimo é “mitogen activated protein kinase” e “MAPK”. Os detalhes são encontrados em Narayanaswamy, Ravikumar e Vijay-Shanker (2003 apud HU et al., 2005).
Por fim, padrões baseado em regras são identificados na forma verbal (i.e., padrões com diferentes formas, como: “phosphorylate/phosphorylated/phosphorylating/
phosphorylates”) e nominal (i.e., seleciona a palavra mais frequentemente encontrada: “phosphorylation”).