Samspill med andre organisasjoner og uorganiserte frivillige

A partir dos resultados apresentados nos diversos experimentos realizados podem-se extrair algu- mas observac¸ ˜oes e conclus ˜oes. Em todos os experimentos foi utilizado como base de comparac¸ ˜ao a anotac¸ ˜ao manual do Corpus de Trabalho.

A anotac¸ ˜ao manual ´e considerada uma base de comparac¸ ˜ao pois executa a tarefa proposta pelo trabalho, neste caso a identificac¸ ˜ao de relacionamentos do tipo causa e efeito em artigos cient´ıficos m ´edicos, sob a forma mais precisa poss´ıvel. Teoricamente, o especialista do dom´ınio consegue extrair todos os relacionamentos existentes nos documentos. Por ´em, em uma quantidade grande de artigos, a ac¸ ˜ao manual necessita de um tempo muito longo para ser executada.

Para auxiliar o trabalho de anotac¸ ˜ao e descoberta de conhecimento a partir dos documentos cient´ıficos, foi proposta neste trabalho uma soluc¸ ˜ao utilizando t ´ecnicas de extrac¸ ˜ao autom ´atica de informac¸ ˜ao. Essa soluc¸ ˜ao utiliza as t ´ecnicas de extrac¸ ˜ao baseada em dicion ´arios e regras (padr ˜oes textuais). Segundo os experimentos realizados, ela obteve um rendimento alto, com aproximadamente 94 % de precis ˜ao e 87 % de cobertura, quando aplicado em um conjunto de artigos selecionados dentro do dom´ınio do problema.

Uma soluc¸ ˜ao existente na literatura para solucionar um problema semelhante `aquele proposto neste trabalho ´e a implementac¸ ˜ao do sistema PolySearch. Para verificar a efic ´acia da utilizac¸ ˜ao do sistema e do algoritmo PolySearch na identificac¸ ˜ao e extrac¸ ˜ao de relacionamento de causa e efeito em textos cient´ıficos m ´edicos, foram realizados experimentos aplicando-se o conjunto de documentos

A principal dificuldade encontrada nos experimentos com o PolySearch foi na disponibilizac¸ ˜ao dos c ´odigos-fonte. Esse fato implicou na necessidade de implementac¸ ˜ao de uma vers ˜ao baseada apenas nos algoritmos descritos no artigo e na p ´agina web do PolySearch. A vers ˜ao desenvolvida foi sub- metida ao Corpus de Trabalho e atingiu resultados pouco satisfat ´orios, com 28 % de precis ˜ao e 1 % de cobertura.

Segundo a literatura existem outras t ´ecnicas que podem ajudar a solucionar um problema de extrac¸ ˜ao de informac¸ ˜ao. A t ´ecnica considerada como estado-da-arte ´e a utilizac¸ ˜ao de algoritmos de aprendizado de m ´aquina. Sendo assim, foram propostos diversos experimentos na tentativa de gerar modelos utilizando os algoritmos Naive Bayes, ´Arvore de Decis ˜ao e Redes Neurais.

Para os experimentos com t ´ecnicas de Aprendizado de M ´aquina foram definidos um conjunto de caracter´ısticas, definidas as classes e extra´ıdos do Corpus de Trabalho as inst ˆancias para treinamento. Foi utilizada tamb ´em a t ´ecnica 10-Fold Cross Validation para validac¸ ˜ao dos resultados. Cada experi- mento foi identificado para que seja poss´ıvel coment ´a-los com maior precis ˜ao. Em cada experimento os resultados foram separados emClasse A (classe negativa, aquela cujos termos n ˜ao formam um

relacionamento de causa e efeito) eClasse B (classe positiva, aquela cujos termos formam relaciona-

mentos de causa e efeito).

Os experimentos 1 e 2 foram realizados utilizando a t ´ecnica baseada em aprendizado estat´ıstico, denominada Naive Bayes. Os experimentos se diferenciaram apenas nas inst ˆancias utilizadas. O experimento 1 utilizou todas as inst ˆancias geradas, incluindo combinac¸ ˜oes que continham tip words. O experimento 2 utilizou pares de inst ˆancias que n ˜ao continham tip words. Em ambos os resultados foram semelhantes, n ˜ao atingindo valores satisfat ´orios. Para a Classe B (positiva), a precis ˜ao ficou entre 37 % e 50 %, a cobertura entre 14 % e 73 %, sendo que 73 % seria para o experimento 1 com maior quantidade de dados.

Nos experimentos de 5 a 8 foi utilizada a t ´ecnica de ´Arvore de Decis ˜ao, mais especificamente o algoritmo C4.5. Nos testes foram consideradas inst ˆancias com e sem presenc¸a de tip words, al ´em da variac¸ ˜ao de valores para os par ˆametrospodas na ´arvore e fator de confianc¸a. Os experimentos

tamb ´em n ˜ao obtiveram resultados satisfat ´orios. O melhor resultado foi o teste do experimento 8, que considerou exclus ˜ao de tip words e podas na ´arvore. Na classe B obteve precis ˜ao de 55 % e cobertura de 26 %.

Por ´ultimo, os experimentos de 9 a 14 utilizaram a t ´ecnica de Redes Neurais, mais especificamente

Perceptron Multicamadas. Nos testes foi efetuada a variac¸ ˜ao de alguns par ˆametros comon ´umero de camadas ocultas, taxa de aprendizado e tempo de treinamento. Novamente, os resultados

apresentaram valores baixos para a classe de interesse, com precis ˜ao entre 46 % e 58 %, cobertura entre 22 % e 29 %.

Em todos os testes utilizando t ´ecnicas de aprendizado de m ´aquina, pode-se perceber que mesmo sendo o estado-da-arte na literatura para extrac¸ ˜ao de informac¸ ˜ao, necessita-se de um conjunto de da- dos com uma quantidade grande de inst ˆancias, necessita-se tamb ´em que essas inst ˆancias estejam o mais balanceadas poss´ıvel. Outra grande necessidade ´e que o conjunto de caracter´ısticas escolhi- das deve ser representativo aos dados que deseja-se classificar. A tarefa de identificac¸ ˜ao das carac- ter´ısticas ´e a mais complexa e onerosa quando se trabalha com desenvolvimento em aprendizado de m ´aquina. Ao utilizar a abordagem por dicion ´arios e regras para soluc¸ ˜ao do problema proposto nesse trabalho, foram obtidos bons resultados para o dom´ınio aplicado.

Todos os experimentos foram executados em um computador marca Dell, com processador Intel Core i5 dois n ´ucleos de2.40GHz cada, 4Gb de mem ´oria RAM, Sistema Operacional Windows 7 Home

107

Basic Service Pack 1,64 bits. Os softwares de apoio utilizados nos experimentos foram Adobe Acrobat Reader (leitura de arquivos PDF), Notepad++ (leitura e edic¸ ˜ao de arquivos TXT). No desenvolvimento das ferramentas foi utilizada linguagem de programac¸ ˜ao Java, vers ˜ao1.7.0 07, 64 bits e a IDE Net- Beans vers ˜ao7.2. No desenvolvimento dos scripts de leitura dos resultados foi utilizada linguagem de programac¸ ˜ao Perl, vers ˜ao5.16.3, 32 bits. Nos experimentos com t ´ecnicas de Aprendizado de M ´aquina foi utilizado o software Weka.

In document Bruk av frivillige i søk og redning : En pilotstudie i to politidistrikt (sider 31-35)