• No results found

2 3 for ) 4 5 for ) 6 for ) 7 8 end 9 end 10 11 end 12 for ) 13 14 end

Resumindo os dois algoritmos explicados anteriormente: se o termo curado é novo, então o processa em todos os artigos; caso o termo curado não seja novo, então o processa somente em artigos que são novos, pois esse mesmo termo já foi processado nos artigos “antigos”. Caso as duas condições não sejam verdadeiras (i.e., se não existe termos novos e se não existe artigos novos), então não há a necessidade de utilizar o dicionário para identificar em quais sentenças ocorrem os termos curados. Portanto, essas restrições evitarão um processamento desnecessário.

A carga de dados no dicionário pode ser realizada de forma manual ou automática. Na carga manual, os termos são inseridos com a participação do especialista do domínio por meio de um recurso de gerenciamento de termos (Seção 5.4). O dicionário deve ser construído por meio de uma carga inicial de dados. Já na carga de dados automática, os termos são identificados nos artigos científicos por meio da abordagem de regra discutida na Seção 5.3.2. 5.3.2 Abordagem de Extração de Informação baseada em Regras

Regras são construídas utilizando expressões regulares que proveem um mecanismo para identificar padrões textuais. Para auxiliar as expressões regulares na identificação dos termos relevantes contidos em uma sentença, a técnica de Processamento de Língua Natural

Capítulo 5 - Metodologia Proposta para Extração de Informação no Domínio Biomédico 70 O etiquetador POS consiste em rotular as palavras segundo a sua classe gramatical. Substantivo, adjetivo, advérbio, verbo e preposição são alguns exemplos de classes gramaticais. A etiquetação é baseada na própria definição da palavra, assim como no contexto ao qual a palavra está inserida. Exemplo de um contexto é o relacionamento de palavras associadas em uma sentença ou em um parágrafo.

Na metodologia proposta, duas estratégias utilizando padrões POS são aplicadas para extrair informação das sentenças: Verbo e Expressão com POS e somente POS. A primeira estratégia utiliza-se de verbos representativos e expressões compostas representativas para identificar se uma sentença contém ou não um termo. Caso a sentença contenha o verbo ou a expressão, então padrões POS são utilizados para extrair os termos relevantes na sentença. A segunda estratégia utiliza padrões POS mais específicos visando alcançar dois objetivos: o primeiro é identificar termos que a primeira estratégia não consegue identificar; o segundo é extrair termos com uma baixa ocorrência de falsos positivos.

Os padrões POS são uma sequencia de etiquetas POS que estão associadas a um conjunto de palavras. Por exemplo, o padrão JJ_NN é uma sequência de etiquetas POS, sendo a primeira etiqueta um adjetivo e a segunda etiqueta um substantivo, as quais podem ser associadas, respectivamente, as palavras harmful e sickness em harmful_JJ sickness_NN.

A seguir, a primeira e a segunda estratégias são explicadas detalhadamente. Estratégia 1: Uso de verbo e expressão com POS para extração de termos relevantes

Na Figura 16 é apresentado um exemplo de extração de termos utilizando a Estratégia 1. Esta estratégia considera que um conjunto de três letras significa uma palavra etiquetada em sua classe gramatical, sendo que os termos relevantes são representados pelos caracteres RRR e os termos irrelevantes pelos caracteres III.

Para explicar o funcionamento da Estratégia 1, considere as três sentenças iniciais mostradas no passo 1 da Figura 16. As duas primeiras sentenças contêm um termo relevante sendo indicado por um verbo e uma expressão composta destacados na cor amarela. A terceira sentença, apesar de conter termos relevantes, representados por RRR, não contém nenhum verbo ou expressão composta representativos indicando um termo candidato e por isso, não é identificada pela Estratégia 1.

No passo 2 da Figura 16, duas sentenças dentre as três sentenças iniciais são selecionadas, uma vez que elas contêm um verbo ou uma expressão composta. O verbo ou a expressão delimitam em qual “Parte Específica” da sentença (i.e., antes ou depois do verbo ou da expressão composta) pode haver um termo relevante. Esta parte específica é destacada na

Capítulo 5 - Metodologia Proposta para Extração de Informação no Domínio Biomédico 71 cor cinza como é mostrado no passo 2 da Figura 16. Primeiramente, é proposto que se aplique dois padrões POS na parte específica selecionada, a fim de eliminar falsos positivos: e . O primeiro padrão significa que o falso positivo a ser removido é uma palavra substantiva de uma até três letras, seguida de uma barra com uma até três letras. O objetivo deste padrão é excluir medidas como g/dL e cm/sec das sentenças, evitando a identificação de falso positivo. O segundo padrão significa que o falso positivo a ser removido é uma palavra substantiva seguida da preposição “of” (e.g., analysis of) ou é a composição de um adjetivo mais um substantivo também seguido da preposição “of” (e.g., previous history of). Os substantivos identificados por esse último padrão são inseridos automaticamente na Lista de Exclusão de Palavra, conforme previamente explicado na Seção 5.3.1. Na sentença 1 existe um falso positivo indicado pela cor vermelha. Este falso positivo é removido por um dos padrões anteriores.

Figura 16 – Exemplo de termos extraídos pela Estratégia 1. Termos relevantes são representados pelos

caracteres RRR e os termos irrelevantes pelos caracteres III.

Em seguida, no passo 3 da mesma figura, o possível termo destacado na cor turquesa, denominado de “Termo Candidato”, é identificado por meio de padrões POS. Por exemplo, o termo candidato da sentença 1 poderia ter sido identificado pelo padrão POS JJ_NN. E os termos candidatos da sentença 2 poderiam ter sidos identificados, respectivamente, pelos padrões JJ_JJ_NN e JJ_NN. O termo candidato selecionado pode conter uma palavra que não faz parte do termo (e.g., termo candidato RRR III da sentença 1) ou o termo candidato pode

Capítulo 5 - Metodologia Proposta para Extração de Informação no Domínio Biomédico 72 ser um falso positivo (e.g., termo candidato III III da sentença 2). No primeiro caso, a Lista de Exclusão de Palavra é consultada para remover a palavra que não faz parte do termo. No segundo caso, a Lista de Exclusão de Termo é consultada para remover o falso positivo.

Por fim, após a remoção de falsos positivos nos termos candidatos, no passo 4 da Figura 16, pode-se notar a extração de termos relevantes pela Estratégia 1. Os passos da Estratégia 1 estão resumidos na Figura 16 do lado direito.

O Algoritmo 3 descreve o pseudocódigo da extração de termos utilizando a Estratégia