• No results found

4 Literature Review

4.4 Product Platform Planning

As heur´ısticas de descarte s˜ao regras que recusam SN anotados que provavelmente n˜ao s˜ao termos representativos de um dom´ınio. Essas heur´ısticas s˜ao regras que descartam SNs que:

• cont´em numerais;

• cont´em outros s´ımbolos al´em de letras, d´ıgitos ou h´ıfen; • o n´ucleo ´e um pronome; ou

• come¸cam com um adv´erbio.

Ao contr´ario das heur´ısticas de ajuste, as heur´ısticas de descarte n˜ao alteram o n´umero de palavras dos SNs, mas reduzem significativamente o n´umero total de SNs extra´ıdos. Conside- rando a aplica¸c˜ao de todas heur´ısticas de descarte sobre os 189.146 SNs originalmente extra´ıdos do corpus de Pediatria recusou 55.896 SNs, ou seja, um pouco menos de 30% dos termos ori- ginalmente extra´ıdos s˜ao descartados.

3.3.2.1 D1 - Regra de Descarte 1 – Recusa de SNs com Numerais

A primeira heur´ıstica de descarte recusa SNs que contˆem numerais, seja na forma escrita ou utilizando caracteres num´ericos (d´ıgitos). Apesar de ser uma heur´ıstica bastante restritiva que ignora termos como “as sete maravilhas” ou “os trˆes mosqueteiros”, essa heur´ıstica ´e frequentemente v´alida para descartar SNs que expressam quantidades que s˜ao comuns em textos cient´ıficos.

Exemplos de sucesso da aplica¸c˜ao dessa regra no corpus de Pediatria ´e o descarte dos SNs “trˆes meses” e “ano 2000”. Na verdade, essa heur´ıstica ´e bastante eficiente por excluir SNs que fazem referˆencias a datas. A aplica¸c˜ao da regra D1 sobre os 186.146 SNs extra´ıdos do corpus de Pediatria resultou na recusa de 30.969 termos.

3.3.2.2 D2 - Regra de Descarte 2 – Recusa de SNs com S´ımbolos

Analogamente `a recusa de SNs com numerais, a regra D2 descarta SNs que cont´em s´ımbolos, ou seja, s´o aceita SNs compostos por letras e d´ıgitos. Por´em, aceita-se tamb´em o caracter h´ıfen (“-”) que ´e usual em palavras compostas, como por exemplo: “rec´em-nascido” e “bem-estar”.

Muitos dos SNs recusados pela presen¸ca de s´ımbolos tamb´em possuem numerais, como por exemplo, valores percentuais (“46%”). Encontra-se tamb´em s´ımbolos em endere¸cos eletrˆonicos (“[email protected]”) ou representa¸c˜oes abreviadas de n´umeros ordinais (“2o”).

A aplica¸c˜ao da regra D2 nos 189.146 SNs extra´ıdos do corpus de Pediatria resultaram na recusa de 40.989 SNs, tornando essa regra a mais restritiva dentre as heur´ısticas de descarte, ou seja, mais de 21% dos termos extra´ıdos s˜ao descartados devido a essa heur´ıstica.

3.3.2.3 D3 - Regra de Descarte 3 – Recusa de SNs com um Pronome como N´ucleo

Usualmente o n´ucleo de um SN ´e um substantivo comum ou pr´oprio. No entanto, o n´ucleo de um SN tamb´em pode ser um adjetivo, um verbo no partic´ıpio passado ou um pronome. A terceira heur´ıstica de descarte visa aceitar somente SNs cujo o n´ucleo possui um significado autocontido, ou seja, o n´ucleo ´e um substantivo, adjetivo ou verbo no partic´ıpio passado. Consequentemente, recusa-se SNs quando o n´ucleo ´e um pronome, ou seja, quando o SN indica um termo explicitamente mencionado em outro ponto do texto (an´afora).

Algumas situa¸c˜oes de SNs com n´ucleos de diferentes classes gramaticais s˜ao exemplificados nas frases indicadas na Tabela 3.3.

3.3. HEUR´ISTICAS PROPOSTAS 43

Tabela 3.3: Frases com n´ucleos de SN de diferentes classes gramaticais.

Frase Exemplo

n´ucleo classe

(SN de interesse em negrito) gramatical

1 Os alunos espertospodem prever dificuldades. alunos substantivo comum

2 Os espertospodem prever dificuldades. espertos adjetivo

3 O aleitamento materno ´e fundamental para os rec´em-nascidos. nascidos partic´ıpio passado

4 O aleitamento materno ´e fundamental para as crian¸cas rec´em-nascidas. crian¸cas substantivo comum

5 A Madalena arrependidateve dificuldade em explicar-se. Madalena substantivo pr´oprio

6 A arrependidateve dificuldade em explicar-se. arrependida partic´ıpio passado

7 Elesn˜ao foram encontrados apesar dos esfor¸cos empregados. eles pronome pessoal

8 O esfor¸co empregado gerou grandes expectativas, mas frustou as nossas. nossas pronome possessivo

9 Aqueles que sabiam, perguntaram. aqueles pronome demonstrativo

Como pode ser observado nas frases 1 e 2 da Tabela 3.3, o SN com o n´ucleo “espertos” (um adjetivo) pode n˜ao ser t˜ao adequado como conceito quanto o SN “os alunos espertos” que possui como n´ucleo um substantivo. Por outro lado, observando a frase 3 da Tabela 3.3, o SN “os rec´em-nascidos”, que tamb´em n˜ao possui substantivo, ´e bastante significativo, sendo talvez mais significativo que o SN encontrado na frase 4, “crian¸cas rec´em-nascidas”. Por essa raz˜ao, opta-se por aceitar SNs que possuem como n´ucleo um adjetivo ou verbo no partic´ıpio passado, e n˜ao s´o substantivos.

Para a frase 5 observa-se a utiliza¸c˜ao de um nome pr´oprio com uma fun¸c˜ao que se assemelha mais `a de um substantivo, logo aceitar nomes pr´oprios pode ser adequado. Isso fica claro se comparado ao exemplo da frase 6, em que o adjetivo “arrependida” traz menos informa¸c˜ao que o SN utilizado na frase 5.

Finalmente, para os exemplos nas frases 7, 8 e 9, fica claro que SNs que possuem pronomes como n´ucleo n˜ao fornecem bons candidatos a conceitos. Isso verifica-se tanto em utiliza¸c˜oes comuns, como na frase 7, quanto em estruturas mais complexas, como nas frases 8 e 9.

Note-se que, de acordo com o prop´osito da extra¸c˜ao de termos, pode ser interessante des- cartar SNs segundo a classe gramatical do n´ucleo. Para os trabalhos desenvolvidos nessa tese, s˜ao aceitos SNs que possuem como n´ucleo substantivos comuns ou pr´oprios, adjetivos ou verbos no partic´ıpio passado, ou seja, recusa-se SNs cujo n´ucleo ´e um pronome. A aplica¸c˜ao da regra D3 sobre os 189.146 SNs extra´ıdos do corpus de Pediatria causou a recusa de 6.109 termos.

3.3.2.4 D4 - Regra de Descarte 4 – Recusa de SNs que Iniciam com Adv´erbio

A ´ultima heur´ıstica de descarte baseia-se no fato de que alguns SNs n˜ao se referem explicita- mente a um termo, mas apenas fazem referˆencia a termos previamente mencionados. Nesses casos, usualmente o SN come¸ca com um adv´erbio e possui como n´ucleo um adjetivo. Esses SNs n˜ao s˜ao adequados a serem considerados candidatos a conceitos, pois eles n˜ao carregam uma informa¸c˜ao completa.

Por exemplo, no corpus de Pediatria o SN “mais frequente” foi encontrado 11 vezes, mas nessas ocorrˆencias ele foi empregado 5 vezes para referenciar o uso frequente de um medica- mento, e 6 vezes para referenciar a ado¸c˜ao frequente de um h´abito por um paciente. No entanto, ´e in´util considerar o SN “mais frequente” como um candidato a conceito, pois somente obser- vando os contextos onde o termo ´e empregado torna-se poss´ıvel saber se ele est´a se referindo a um medicamento ou um h´abito de pacientes.

A aplica¸c˜ao da heur´ıstica D4 sobre os 189.146 SNs do corpus de Pediatria fez com que apenas 650 termos fossem descartados. Esse n´umero ´e relativamente baixo, por´em ´e importante perceber que sua remo¸c˜ao representa uma clara melhora no processo de extra¸c˜ao, pois descarta- se SNs que n˜ao carregam informa¸c˜ao conceitual.