Como apresentado na Sec¸ ˜ao 4.4, foi realizada a anotac¸ ˜ao de um corpus para testes, chamado na Sec¸ ˜ao 4.3 de Corpus de Trabalho. Possui um conjunto de 5 artigos que tratam do problema da hipertens ˜ao pulmonar no contexto da AF. Possui outro conjunto de 5 artigos que tamb ´em tratam do problema da hipertens ˜ao pulmonar em outras doenc¸as distintas. A anotac¸ ˜ao manual foi validada pelo especialista do dom´ınio para garantir melhor qualidade dos resultados.
O foco principal do trabalho est ´a na etapa de extrac¸ ˜ao de relacionamentos sem ˆanticos, Sec¸ ˜ao 4.6.3, cujo m ´etodo ´e constitu´ıdo por duas fases. Ambas foram avaliadas e seus resultados ser ˜ao apresenta- dos nesta sec¸ ˜ao.
A primeira fase consiste na selec¸ ˜ao de sentenc¸as que possuem relacionamentos sem ˆanticos do tipo “causa e efeito”. A segunda fase corresponde `a extrac¸ ˜ao dos relacionamentos a partir das sentenc¸as selecionadas na primeira fase. Na avaliac¸ ˜ao de ambas as fases foram utilizadas m ´etricas padr ˜ao am- plamente difundidas na literatura, a saber: precis ˜ao, cobertura e medida-F.
Com as ferramentas JPdf2JSON e ARS, foram produzidos e anotados dois conjuntos de dados utilizando o Corpus de Trabalho. Esses conjuntos de dados s ˜ao constitu´ıdos de arquivos em formato textual (TXT) com sa´ıdas espec´ıficas para cada uma das fases e individuais para cada artigo cient´ıfico analisado. Esses dados foram comparados com outro conjunto semelhante produzido e anotado de forma manual.
Como exemplo do conjunto de dados produzidos na segunda fase, extrac¸ ˜ao dos relacionamentos a partir das sentenc¸as selecionadas na primeira fase, foram gerados manualmente e com a ferramenta ARS um conjunto de arquivos em formato TXT, para cada artigo cient´ıfico, com sentenc¸as que pode- riam possuir relacionamentos de causalidade e os poss´ıveis relacionamentos de causalidade que cada sentenc¸a selecionada na primeira fase poderiam possuir. A amostra de uma sentenc¸a selecionada pelo sistema pode ser verificada a seguir:
SENTENCE 1000 ORIGINAL: Levels of soluble endothelium-derived adhesion molecules in patients with sickle cell disease are associated with pulmonary hypertension , organ dysfunction , and mortality .
SENTENCE 1000 ANNOTATED: levels of <soluble endothelium-derived adhesion molecules><protein> in are <associated with><tip word> <pulmonary
hypertension><disease> , <organ dysfunction><sca complication> , and <mortality><sca complication> .
REGEX: ((?:and|or| , | .)?(?:<.*>)(?:<protein>|<disease>|<sca complication>).*) ((?:<associated with>)<tip word>) ((?:and|or| , |.*| .)?(?:<.*>)(?:<protein>| <disease>|<sca complication>).*)
1st PHASE
RESULT 1 : <soluble endothelium-derived adhesion molecules><protein> in are
<associated with><tip word> <pulmonary hypertension><disease> , <organ dysfunction> <sca complication> , and <mortality><sca complication> .
RESULT 2 : <soluble endothelium-derived adhesion molecules><protein> in are
RESULT 3 : <associated with><tip word>
RESULT 4 : <pulmonary hypertension><disease> , <organ dysfunction> <sca complication> , and <mortality><sca complication> .
2nd PHASE
RELACAO 1 :: RELACAO VALIDA :: adhesion molecule => pulmonary hypertension
RELACAO 2 :: RELACAO VALIDA :: adhesion molecule => organ dysfunction
RELACAO 3 :: RELACAO VALIDA :: adhesion molecule => mortality
> END SENTENCE
No primeiro conjunto foram anotadas manualmente todas as sentenc¸as que possu´ıam algum tipo de relacionamento e todas os relacionamentos sem ˆanticos de causalidade (representando as duas fases da etapa 3 do m ´etodo). Esse passo foi realizado com a ajuda do especialista do dom´ınio. O
83
segundo conjunto foi executado utilizando o m ´etodo proposto nesta pesquisa de mestrado e foram extra´ıdas automaticamente sentenc¸as e os relacionamentos. A partir dos conjuntos, as informac¸ ˜oes extra´ıdas foram comparadas e contabilizadas.
A Figura 31 destaca o m ´etodo utilizado para colher os resultados dos testes por meio das m ´etricas de precis ˜ao, cobertura e medida-F.
Figura 31: Avaliac¸ ˜ao das Etapas.
Na etapa 1, os documentos foram convertidos do formato PDF para o formato TXT, foram limpos, e convertidos para JSON. Na etapa 2, por meio dos dicion ´arios, os termos foram extra´ıdos em cada sentenc¸a. A etapa 3, avaliada pelas m ´etricas padr ˜ao, ocorre a selec¸ ˜ao das sentenc¸as com poss´ıveis relacionamentos sem ˆanticos do tipo “causa e efeito”. Na etapa 4, tamb ´em avaliada pelas m ´etricas padr ˜ao, ocorre a identificac¸ ˜ao de relacionamentos sem ˆanticos do tipo “causa e efeito”. Por ´ultimo, na etapa 5, uma rede sem ˆantica de conhecimento ´e constru´ıda utilizando os relacionamentos extra´ıdos na etapa anterior. Esta ´ultima etapa n ˜ao foi avaliada, uma vez que constr ´oi uma forma de representac¸ ˜ao computacional do conhecimento extra´ıdo na etapa 4.
Na avaliac¸ ˜ao por meio da comparac¸ ˜ao com a anotac¸ ˜ao manual do corpus s ˜ao utilizadas as m ´etricas padr ˜ao (Precis ˜ao, Cobertura e Medida-F), apresentadas na Sec¸ ˜ao 2.1.2.4. Para cada conjunto de dados, em cada fase, foram definidos os valores: verdadeiros positivos (VP), falsos positivos (FP), falsos negativos (FN) e verdadeiros negativos (VN).
Em dados gerais, nos 10 artigos selecionados temos:
• Total de sentenc¸as existentes : 1509 • Total de tokens existentes : 42999
Na fase 1, selec¸ ˜ao de sentenc¸as que possuem relacionamentos de causalidade, temos os resulta- dos aplicados para duas classificac¸ ˜oes, associac¸ ˜ao e increase/decrease:
• Total de sentenc¸as selecionadas manualmente: 572 sentenc¸as • Total de sentenc¸as selecionadas automaticamente: 432 sentenc¸as
Associac¸ ˜ao:
• Total de sentenc¸as anotadas manualmente e que foram encontradas pelo algoritmo (Verdadeiro Positivo)= 411
• Total de sentenc¸as n ˜ao anotadas manualmente e que foram encontradas pelo algoritmo (Falso Positivo)= 8
• Total de sentenc¸as anotadas manualmente e que n ˜ao foram encontradas pelo algoritmo (Falso Negativo)= 0
• Total de sentenc¸as n ˜ao anotadas manualmente e que n ˜ao foram encontradas pelo algoritmo (Verdadeiro Negativo)= 1090
• Precis ˜ao : 98,09 % • Cobertura : 98,13 % • Medida-F : 99,03 %
Increase/Decrease:
• Total de sentenc¸as anotadas manualmente e que foram encontradas pelo algoritmo (Verdadeiro Positivo)= 158
• Total de sentenc¸as n ˜ao anotadas manualmente e que foram encontradas pelo algoritmo (Falso Positivo)= 26
• Total de sentenc¸as anotadas manualmente e que n ˜ao foram encontradas pelo algoritmo (Falso Negativo)= 3
• Total de sentenc¸as n ˜ao anotadas manualmente e que n ˜ao foram encontradas pelo algoritmo (Verdadeiro Negativo)= 1322
• Precis ˜ao : 85,86 % • Cobertura : 98,13 % • Medida-F : 90,67 %
Na fase 2, extrac¸ ˜ao dos relacionamentos de causalidade, a partir das 432 sentenc¸as selecionadas automaticamente, temos:
• Total de relacionamentos anotados manualmente: 2596 relac¸ ˜oes • Total de relacionamentos extra´ıdos automaticamente: 2399 relac¸ ˜oes
85
• Total de relacionamentos anotados manualmente e encontrados pelo sistema (Verdadeiro Posi- tivo): 2275
• Total de relacionamentos n ˜ao anotados manualmente e encontrados pelo sistema (Falso Posi- tivo): 124
• Total de relacionamentos anotados manualmente e n ˜ao encontrados pelo sistema (Falso Nega- tivo): 321
• Total de relacionamentos n ˜ao anotados manualmente e que n ˜ao foram encontrados pelo algo- ritmo (Verdadeiro Negativo)= 0
• Precis ˜ao : 94,83 % • Cobertura : 87,63 % • Medida-F : 91,08 %
Na Sec¸ ˜ao 5.2 ser ´a descrito o experimento executado `a partir da implementac¸ ˜ao do algoritmo Poly- Search.