• No results found

Variation Orders divided on SFI

6 Case Study Analysis, Findings

6.5 Variation Orders divided on SFI

Nessa se¸c˜ao s˜ao relatados os experimentos realizados sobre o corpus de Pediatria com o intuito de avaliar o uso das heur´ısticas propostas. Foi escolhido esse corpus pelo fato de possuir associado a ele listas de termos de referˆencia constru´ıdas por um grupo externo (www.ufrgs.br/ textecc). Essas listas s˜ao compostas por 1.534 bigramas e 2.660 trigramas e est˜ao dispon´ıveis no anexo A. Logo, torna-se poss´ıvel comparar termos extra´ıdos com a referˆencia, utilizando medidas usuais da ´area de recupera¸c˜ao de informa¸c˜ao [192].

Especificamente, exemplifica-se o benef´ıcio trazido pelas 11 heur´ısticas propostas para a extra¸c˜ao de bigramas e trigramas do corpus de Pediatria. A quantifica¸c˜ao desses benef´ıcios ´e feita pelo c´alculo da precis˜ao, abrangˆencia e medida F (Se¸c˜ao 2.3.3).

Para avaliar a aplica¸c˜ao de cada heur´ıstica, compara-se as listas de bigramas e trigramas extra´ıdos mais frequentes `as listas de referˆencia. A extra¸c˜ao b´asica de termos do corpus de Pediatria detecta 58.504 bigramas e 25.485 trigramas (veja Tabela 3.2), por´em observando o n´umero de bigramas e trigramas distintos2, contabiliza-se apenas 17.407 e 15.577, respectiva-

mente. Logo, para as experiˆencias dessa se¸c˜ao escolheu-se considerar listas com 10% desses termos, ou seja, listas com os termos mais frequentes. Essa escolha de considerar os 10% mais frequentes organizados segundo a frequˆencia absoluta ´e consistente com resultados preliminares publicados por Lopes et al. [123]. Dessa forma, compara-se os 1.741 bigramas e os 1.558 trigra- mas com maior frequˆencia absoluta (denominada LE) com os 1.534 bigramas e 2.660 trigramas das listas de referˆencia (denominada LR), respectivamente.

3.4.1

Resultados Num´ericos para as Heur´ısticas de Ajuste

A Tabela 3.6 ilustra os benef´ıcios trazidos pela aplica¸c˜ao das heur´ısticas de ajuste sobre os SNs extra´ıdos do corpus de Pediatria. Al´em dos valores de precis˜ao (P), abrangˆencia (R) e medida-F (F), a ´ultima coluna indica quantos termos da lista de referˆencia foram encontrados na lista dos termos extra´ıdos mais frequentes (10%), ou seja, a intersec¸c˜ao entre LE e LR.

2

A lista de termos extra´ıdos cont´em diversas ocorrˆencias de termos repetidos. Por´em ao contabilizar o n´umero de ocorrˆencias de cada termo, reduz-se o tamanho da lista, pois considera-se apenas o n´umero de termos distintos.

A primeira linha (nenhuma) mostra os resultados obtidos sem a aplica¸c˜ao de nenhuma das heur´ısticas. A pr´oximas 4 linhas indicam os resultados obtidos aplicando cada uma das heur´ısticas de ajuste individualmente. Finalmente, a ´ultima linha (todas) indica os resultados obtidos aplicando todas heur´ısticas de ajuste simultaneamente.

Tabela 3.6: Benef´ıcios obtidos com as heur´ısticas de ajuste.

Bigramas heur´ısticas P R F | LR X LE | de ajuste nenhuma 12% 13% 13% 206 A1 38% 43% 40% 653 A2 38% 43% 40% 654 A3 14% 16% 15% 252 A4 15% 17% 16% 257 todas A 48% 55% 51% 839 Trigramas heur´ısticas P R F | LR X LE | de ajustes nenhuma 13% 8% 10% 202 A1 55% 32% 40% 852 A2 59% 34% 43% 914 A3 15% 9% 11% 229 A4 16% 9% 12% 242 todas A 60% 35% 44% 934

A primeira observa¸c˜ao dos dados da Tabela 3.6 ´e que a extra¸c˜ao de SNs sem nenhuma heur´ıstica resulta em valores baixos de precis˜ao e abrangˆencia. Esses valores s˜ao similares `aqueles encontrados em m´etodos b´asicos de extra¸c˜ao baseados no uso de anota¸c˜ao lingu´ıstica feita pelo PALAVRAS [165]. No entanto, ap´os a remo¸c˜ao de artigos (heur´ısticas A1 e A2) percebe-se um grande aumento (de 25% a 43%) nos valores de precis˜ao e abrangˆencia.

As heur´ısticas de remo¸c˜ao de pronomes (A3 e A4) foram menos efetivas, mas ainda assim es- sas permitem um aumento razo´avel de 2% a 3% na precis˜ao. Note-se que a aplica¸c˜ao combinada de todas heur´ısticas de ajuste (linha todas) traz benef´ıcios enormes como pode ser visto pelo aumento de 38% e 35% nos valores de medida-F para bigramas e trigramas, respectivamente.

3.4.2

Resultados Num´ericos para as Heur´ısticas de Descarte

A an´alise das heur´ısticas de descarte inicia considerando os resultados j´a obtidos com a aplica¸c˜ao de todas as heur´ısticas de ajuste. Dessa forma, os resultados apresentados na primeira linha (todas A) da Tabela 3.7 consideram a aplica¸c˜ao de todas heur´ısticas de ajuste e nenhuma das heur´ısticas de descarte. As 4 linhas seguintes representam os resultados obtidos aplicando todas heur´ısticas de ajuste e cada uma das heur´ısticas de descarte individualmente. Finalmente, a ´

ultima linha da Tabela 3.7 (todas A D) apresenta os resultados obtidos com todas as heur´ısticas de ajuste, bem como todas as heur´ısticas de descarte.

Observando as informa¸c˜oes na Tabela 3.7 ´e poss´ıvel perceber que a maior parte dos benef´ıcios (at´e 10% de medida-F) das heur´ısticas de descarte ocorre devido `a regra de recusa de SNs com s´ımbolos (D2). A recusa de SN com numerais (D1) tamb´em causou um aumento interessante da medida-F (at´e 3%). Al´em disso, para essas duas heur´ısticas (D1 e D2) percebeu-se um aumento mais significativo para bigramas, enquanto que para trigramas os benef´ıcios foram menos impactantes.

3.4. AVALIAC¸ ˜AO NUM ´ERICA DAS HEUR´ISTICAS PROPOSTAS 49

Tabela 3.7: Benef´ıcios obtidos com as heur´ısticas de descarte.

Bigramas heur´ısticas P R F | LR X LE | de descarte todas A 48% 55% 51% 839 D1 52% 60% 56% 914 D2 57% 65% 61% 993 D3 48% 55% 51% 842 D4 48% 55% 51% 840 todas A D 57% 65% 61% 1.001 Trigramas heur´ısticas P R F | LR X LE | de descarte todas A 60% 35% 44% 934 D1 61% 36% 45% 947 D2 64% 37% 47% 995 D3 61% 36% 45% 953 D4 60% 35% 44% 936 todas A D 65% 38% 48% 1.006

As outras duas heur´ısticas (D3 e D4), ainda que afetando um n´umero razo´avel de SNs (6.759 termos), conforme informado nas Se¸c˜oes 3.3.2.3 e 3.3.2.4, tiveram efeitos menores tanto na precis˜ao como abrangˆencia. Apesar disso, tanto para bigramas como para trigramas, as heur´ısticas ainda contribu´ıram com a recusa de termos inadequados, aumentando, portanto, o n´umero de termos encontrados nas listas de referˆencia.

Adicionalmente, o uso combinado de todas as heur´ısticas de descarte trouxe um ineg´avel benef´ıcio na precis˜ao das listas de 9% para bigramas e 5% para trigramas. Este aumento de precis˜ao ´e ainda mais not´avel devido a ser acompanhado por um aumento de 10% e 3% de abrangˆencia, para bigramas e trigramas respectivamente.

3.4.3

Resultados Num´ericos para as Heur´ısticas de Inclus˜ao

Analogamente `a an´alise feita para as heur´ısticas de descarte, a avalia¸c˜ao quantitativa das heur´ısticas de inclus˜ao ´e feita considerando a aplica¸c˜ao de todas heur´ısticas dos dois grupos anteriormente citados. A primeira linha (todas A D) da Tabela 3.8 apresenta os resultados obtidos com a aplica¸c˜ao de todas heur´ısticas de ajuste e descarte, e nenhuma das heur´ısticas de inclus˜ao. As 3 linhas seguintes indicam os resultados com a aplica¸c˜ao de todas heur´ısticas de ajuste e descarte com cada uma das heur´ısticas de inclus˜ao aplicada individualmente. Fi- nalmente, a ´ultima linha (todas) indica os resultados obtidos com a aplica¸c˜ao de todas as 11 heur´ısticas propostas.

Observando os resultados da Tabela 3.8 ´e poss´ıvel perceber que todas as heur´ısticas de inclus˜ao apresentam incrementos na precis˜ao e abrangˆencia. Observando cada heur´ıstica de inclus˜ao individualmente percebe-se um aumento de 1% a 2% em precis˜ao e abrangˆencia.

Numericamente, mesmo a aplica¸c˜ao das 3 heur´ısticas traz um incremento entre 2% e 3% para todos os ´ındices. No entanto, cabe salientar que ap´os a aplica¸c˜ao das heur´ısticas de ajuste e descarte os valores de precis˜ao e abrangˆencia j´a estavam altos em compara¸c˜ao com outras abordagens com o mesmo prop´osito de extra¸c˜ao de termos [165, 127]. Dessa forma, mesmo o incremento de 1% de precis˜ao obtido j´a ´e significativo quando se passa de uma precis˜ao de 57% a 58%.

Tabela 3.8: Benef´ıcios obtidos com as heur´ısticas de inclus˜ao. Bigramas heur´ısticas P R F | LR X LE | de inclus˜ao todas A D 57% 65% 61% 1.001 I1 59% 67% 63% 1.027 I2 58% 65% 61% 1.004 I3 58% 66% 62% 1.010 todas 60% 68% 64% 1.041 Trigramas heur´ısticas P R F | LR X LE | de inclus˜ao todas A D 65% 38% 48% 1.006 I1 67% 39% 50% 1.044 I2 65% 38% 48% 1.011 I3 65% 38% 48% 1.009 todas 68% 40% 50% 1.058

3.4.4

Resultado Final das Heur´ısticas Propostas

O benef´ıcio trazido pela aplica¸c˜ao das heur´ısticas ´e claro. Os resultados combinados mostram um aumento consistente que trouxe os valores de 7% a 13%, somente com o processo b´asico de extra¸c˜ao, a valores entre 40% e 68%, com a aplica¸c˜ao de todas as heur´ısticas. Cabe salienar que a ordem de aplica¸c˜ao das heur´ısticas n˜ao afeta o resultado final das listas extra´ıdas.

Outro fator importante a observar ´e que os resultados foram testados a partir de uma anota¸c˜ao lingu´ıstica feita pelo parser PALAVRAS, considerando especificamente os sintagmas nominais. Em um trabalho anterior [124], uma outra ferramenta chamada OntoLP [165] se- guindo os mesmos passos, ou seja, anota¸c˜ao pelo PALAVRAS e detec¸c˜ao de SNs, chegou a valores de precis˜ao semelhantes aos valores iniciais sem o uso de heur´ısticas (cerca de 10%). Ainda que seja dif´ıcil comparar trabalhos distintos devido aos corpora utilizados, listas de re- ferˆencia e n´umero de termos extra´ıdos, percebe-se que a precis˜ao obtida anteriormente ao uso das heur´ısticas propostas era sensivelmente inferior aos valores por volta de 60% de precis˜ao conseguidos com o uso de todas as heur´ısticas.

Por essas raz˜oes, acredita-se que as heur´ısticas propostas s˜ao uma contribui¸c˜ao clara para qualificar o processo de extra¸c˜ao autom´atica de termos. Ainda que os testes de precis˜ao, abrangˆencia e medida-F tenham sido realizados somente sobre o corpus de Pediatria, os resul- tados obtidos para bigramas e trigramas foram consistentes entre si. Cabe lembrar que a raz˜ao pela qual n˜ao foram feitos mais testes, foi a inexistˆencia de listas de referˆencia a serem usadas como paradigma de qualidade do processo autom´atico de extra¸c˜ao de termos.

O processo de extra¸c˜ao com todas heur´ısticas propostas aplicado aos corpora citados anteri- ormente (Se¸c˜ao 3.1) resultou no n´umero de termos descritos na Tabela 3.9. Nessa tabela temos o n´umero de termos gerados para cada corpora (Pediatria - PED, Modelagem estoc´astica - ME, Minera¸c˜ao de dados - MD, Processamento paralelo - PP, e Geologia - GEO) e dividos segundo o n´umero de palavras dos termos (unigramas, bigramas, etc.). Essa tabela atualiza o n´umero de termos originalmente extra´ıdos expresso na Tabela 3.2.

Uma observa¸c˜ao comparativa do n´umero de termos antes e ap´os a aplica¸c˜ao das heur´ısticas, respectivamente, Tabelas 3.2 e 3.9, mostra que o n´umero total de termos varia pouco. No entanto, h´a um incremento de qualidade, pois descartou-se termos inadequados e incluiu-se termos adequados. A Figura 3.7 mostra graficamente essa varia¸c˜ao para cada corpus.

3.4. AVALIAC¸ ˜AO NUM ´ERICA DAS HEUR´ISTICAS PROPOSTAS 51

Tabela 3.9: N´umero de termos extra´ıdos de cada corpora ap´os aplica¸c˜ao de heur´ısticas.

n´umero de PED ME MD PP GEO palavras unigramas 71.327 100.425 91.370 93.433 151.755 bigramas 33.340 37.608 35.727 35.233 78.490 trigramas 27.587 43.905 45.450 43.303 71.377 4-gramas 15.555 19.905 19.212 19.354 39.625 5-gramas 10.067 16.388 17.199 15.897 28.785 6-gramas 6.973 9.893 9.683 9.612 19.877 7-gramas 4.659 7.159 7.440 6.901 13.597 8-gramas 3.186 4.700 5.013 4.756 9.493 9-gramas 2.218 3.402 3.628 3.424 6.547 N-gramas 5.208 8.783 9.717 9.232 16.855 total 180.120 252.168 244.439 241.145 436.401

Na Figura 3.7 indica-se o n´umero de termos extra´ıdos de cada corpus com cores distintas para os termos segundo o n´umero de palavras (unigramas, bigramas, etc.). Mostra-se ainda nessa figura o n´umero de termos considerando apenas o processo b´asico de extra¸c˜ao sem ne- nhuma heur´ıstica nas colunas onde aparece apenas o nome do corpus (PED, ME, MD, PP e GEO), e o n´umero de termos considerando a aplica¸c˜ao de todas as heur´ısticas propostas nas colunas onde aparece o nome do corpus marcado com um asterisco (PED˚, ME˚, MD˚, PP˚ e

GEO˚). 0 50K 100K 150K 200K 250K 300K 350K 400K 450K 500K

PED PED˚ ME ME˚ MD MD˚ PP PP˚ GEO GEO˚

unigramas bigramas trigramas 4-gramas 5-gramas 6-gramas 7-gramas 8-gramas 9-gramas N-gramas

Observando a Figura 3.7, percebe-se um grande aumento no n´umero de termos com menos palavras, especialmente unigramas, enquanto que o n´umero de termos com muitas palavras diminui bastante. O mais interessante ´e que essa altera¸c˜ao na distribui¸c˜ao do n´umero de termos acontece com um incremento de qualidade, pois descartou-se termos inadequados e incluiu-se termos adequados, como indicam os testes de precis˜ao vistos anteriormente.