Antes de iniciar a descric¸ ˜ao do desenvolvimento do trabalho de pesquisa ´e interessante apresentar algumas definic¸ ˜oes que facilitar ˜ao o entendimento do m ´etodo.
• Token – ´E toda sequ ˆencia de caracteres com excec¸ ˜ao do espac¸o em branco;
• Termo – ´E toda sequ ˆencia de tokens que representa uma entidade ou tem algum significado espec´ıfico em uma sentenc¸a;
• Tip Word – Possui a mesma definic¸ ˜ao de Termo. A diferenc¸a ´e que o Tip Word ´e um termo, normalmente, mas n ˜ao obrigatoriamente, um verbo, que sugere ao algoritmo de extrac¸ ˜ao de relacionamentos que em determinada sentenc¸a podem existir relacionamentos de causalidade. Os tip words se distinguem em:
– Increase/Decrease: S ˜ao aqueles que indicam que um termo aumenta ou diminui. Por ex-
emplo: [increased]1 [macrophage iron stores]2.
A anotac¸ ˜ao marcada com o n ´umero 1 determina um tip word que indica aumento, en- quanto a anotac¸ ˜ao marcada com o n ´umero 2 determina um termo.
– Association: S ˜ao aqueles que indicam que um termo possui associac¸ ˜ao com outro. Por
exemplo: [inflammation]1 [causes]2 an [increase of]3 [production of hepcidin]4.
As anotac¸ ˜oes marcadas com os n ´umeros 1 e 4 determinam termos. A anotac¸ ˜ao marcada com o n ´umero 3 determina um aumento, como no exemplo anterior. A anotac¸ ˜ao marcada com o n ´umero 2 determina um tip word que indica uma associac¸ ˜ao entre os termos 1 e 4.
– Negative: S ˜ao aqueles que indicam tip words de negac¸ ˜ao. Por exemplo: levels of
[sICAM-1]1 [was not]2 significant.
A anotac¸ ˜ao marcada com o n ´umero 1 determina um termo. A anotac¸ ˜ao marcada com o n ´umero 2 determina um tip word que indica uma negac¸ ˜ao.
– Possibility: S ˜ao aqueles que indicam tip words de possibilidades. Por exemplo: [exces-
sive]1 [endothelial activation]2 and [vaso-constriction]3 because of impaired NO bioavail- ability [may]4 [contribute to]5 [vascular instability]6.
As anotac¸ ˜oes marcadas com os n ´umeros 2, 3 e 6 determinam termos. A anotac¸ ˜ao mar- cada com o n ´umero 1 determina um aumento. A anotac¸ ˜ao marcada com o n ´umero 5 determina umtip word que indica uma associac¸ ˜ao entre os termos. A anotac¸ ˜ao marcada
com o n ´umero 4 determina um tip word que indica uma possibilidade.
• Relacionamento sem ˆantico – Usualmente, a definic¸ ˜ao adotada na literatura para expressar um relacionamento sem ˆantico possui o mesmo formato utilizado por Taba (2013), no qual um relacionamento ´e uma tripla <relac¸ ˜ao, termo1, termo2>, onde relac¸ ˜ao ´e a denominac¸ ˜ao de um relacionamento sem ˆantico (por exemplo is-a, made-of, part-of) e termo1 e termo2 s ˜ao dois ter- mos distintos em uma sentenc¸a. Nesta pesquisa realizamos uma extens ˜ao da notac¸ ˜ao usual, pois a mesma n ˜ao exprime todo o conte ´udo que este trabalho pretende representar nos rela- cionamentos sem ˆanticos extra´ıdos.
Na extens ˜ao utilizada definiremos duas representac¸ ˜oes. A primeira, utilizada em relacionamen- tos que n ˜ao possuem associac¸ ˜ao, representaremos umrelacionamento sem ˆantico como uma
tripla <relac¸ ˜ao, termo estendido1, termo estendido2>. Na segunda, utilizada em relac¸ ˜oes que possuem associac¸ ˜ao, representaremos por meio de uma qu ´adrupla <relac¸ ˜ao, termo estendido1,
tip word,
termo estendido2>, onde, relac¸ ˜ao ´e a denominac¸ ˜ao de um relacionamento sem ˆantico semel-
hante `a notac¸ ˜ao usual (por exemplo is-a, made-of, part-of), tip word ´e a tip word que par-
ticipa de um relacionamento de associac¸ ˜ao, negac¸ ˜ao ou possibilidade e termo estendido1 e termo estendido2 s ˜ao dois termos distintos em uma sentenc¸a, os quais possuem as seguintes
variac¸ ˜oes:
– apenas o termo. Por exemplo: [inflamation];
– tip word increase + termo. Por exemplo: [increase] [inflamation]; – tip word decrease + termo. Por exemplo: [decrease] [inflamation].
Com um exemplo mais completo, a partir das sentenc¸as abaixo podemos extrair algumas relac¸ ˜oes:
Senten¸ca tipo Increase/Decrease: With [endothelial dysfunction]1 and [vascular injury]2 , the levels of endothelial bound and [soluble adhesion molecules]3
59
Rela¸c~ao 1: cause-effect([endothelial dysfunction], [increase] [soluble adhesion molecules])
Rela¸c~ao 2: cause-effect([vascular injury], [increase] [soluble adhesion molecules])
---
Senten¸ca de Associa¸c~ao: Levels of [soluble endothelium-derived adhesion molecules]1 in patients with sickle cell disease are [associated with]2 [pulmonary hypertension]3 ,
[organ dysfunction]4 , and [mortality]5 .
Rela¸c~ao 1: cause-effect([soluble endothelium-derived adhesion molecules], [associated with], [pulmonary hypertension])
Rela¸c~ao 2: cause-effect([soluble endothelium-derived adhesion molecules], [associated with], [organ dysfunction])
Rela¸c~ao 3: cause-effect(soluble endothelium-derived adhesion molecules, [associated with], [mortality])
Como o trabalho desenvolvido busca apenas relacionamentos de causalidade, os relacionamen- tos encontrados ser ˜ao nomeadas como (cause-effect(termo estendido1, termo estendido2)) ou (cause-
effect(termo estendido1, tip word, termo estendido2)). Na literatura, podemos encontrar a forma usual
escrita como (cause-effect(termo1,termo2)) e tamb ´em no formato (effect-of(termo1,termo2)).
4.3
Recursos
Para o desenvolvimento desta pesquisa de mestrado foi necess ´aria a utilizac¸ ˜ao de alguns recur- sos textuais. Com a ajuda do especialista de dom´ınio da ´area biom ´edica, foram obtidos dois corpora contendo artigos cient´ıficos da mesma ´area.
O primeiro corpus, o qual chamaremos durante esta dissertac¸ ˜ao de Corpus Estudo Piloto, ´e con- stitu´ıdo de 17 artigos que envolvem o tema da Anemia Falciforme (AF), relacionados ao problema do
priapismo e da cadeia de metabolismo do ferro. Este corpus foi utilizado como base para o estudo
piloto apresentado na Sec¸ ˜ao 4.1. A partir deste corpus foram geradas as regras, baseadas em padr ˜oes textuais, que realizam a selec¸ ˜ao de sentenc¸as e extrac¸ ˜ao de relacionamentos do tipo “causa e efeito”.
O segundo corpus ´e constitu´ıdo de 30 artigos. 15 deles envolvem o tema da AF e est ˜ao rela- cionados ao problema dahipertens ˜ao pulmonar. Os outros 15 artigos tamb ´em est ˜ao relacionados ao
problema dahipertens ˜ao pulmonar, por ´em est ˜ao ligados a outras doenc¸as diferentes da AF.
Neste segundo corpus, o qual chamaremos durante esta dissertac¸ ˜ao de Corpus de Trabalho, destacamos a escolha de dois subconjuntos de artigos. Ambos os subconjuntos est ˜ao relacionados `a doenc¸as distintas, por ´em tratando de um mesmo efeito negativo. Esta estrat ´egia serve para demon- strarmos que os artigos podem se relacionar e ideias extra´ıdas de documentos que envolvem doenc¸as diferentes daquelas pesquisadas pelo especialista pode ajudar diretamente nos estudos por novos trata- mentos e curas.
Outro recurso utilizado neste trabalho foi um conjunto de ontologias. Extra´ıdas do The Open Bi-
ological and Biomedical Ontologies (OBO, 2013), foram utilizadas como base para a construc¸ ˜ao de dicion ´arios de termos do dom´ınio biom ´edico, utilizados na extrac¸ ˜ao de Termos. Mais detalhes estar ˜ao descritos na Sec¸ ˜ao 4.6.2 - Etapa 2: Extrac¸ ˜ao de Termos - e na Sec¸ ˜ao 4.6.2.1 - Dicion ´arios de Termos e
Tip Words.