5. Analysis
5.3 Profitability analysis biogas
Como mencionado durante a elucidação de suas características, a linguagem OWL será utilizada neste trabalho para a representação das ontologias criadas.
Dentre as principais razões para isso, destacam-se:
• o crescente interesse que a linguagem OWL tem suscitado na comuni- dade;
• a disponibilidade de um conjunto de construtores que permitirão a defi- nição dos elementos que serão criados pelo método sugerido;
• a oferta de diferentes níveis de expressividade, desde um nível mais simples necessário aqui, até níveis mais complexos de construtores e de restrições, sofisticados o suficiente para permitir uma eventual evolução deste trabalho no futuro.
28
3
Abordagens para Criação de
Ontologias
A construção e a manutenção de ontologias são atividades que requerem muito esforço e tempo. Além de cara, a modelagem feita à mão por um especia- lista humano pode apresentar erros e ser influenciada em demasia pela sua ex- periência própria, isto é, pode não representar a interpretação predominante entre a maioria dos especialistas do domínio analisado. Dadas essas dificul- dades, é ainda bastante expressiva a quantidade de domínios para os quais não existem ontologias modeladas e reconhecidas pelos respectivos especialistas como adequadas para a representação do conhecimento da área. Esses fatores constituem inibidores bastante poderosos para uma utilização mais massiva e ubíqüa de ontologias.
Para endereçar esses problemas o campo da aprendizagem de ontologias surgiu para propor o desenvolvimento de técnicas e abordagens automáticas de construção de ontologias. Maedche e Staab (2004) sugerem uma classifica- ção dessas abordagens segundo a base utilizada na construção da ontologia e que pode ser composta por dados estruturados (como aqueles que se mantém em bases de dados), semi-estruturados (como aqueles expressos em HTML e XML) ou textos em linguagem natural.
• Criação de ontologias a partir de dados estruturados objetiva a criação de ontologias baseada na extração de conceitos e relações contidos em bases de dados. Esse tipo de ontologia tem sido usado como uma forma de mediação ou integração entre bases de dados, mas a criação manual dessas ontologias é bastante complexa e tediosa;
• Criação de ontologias a partir de dados semi-estruturados consiste na utilização de novos padrões para a publicação de documentos na web, tais como HTML, XML, XML-Schemas. Esses novos padrões tem alte- rado a maneira como se disponibiliza informações na web e aumentado a disponibilidade de dados semi-estruturados, bem como as definições
3.1 Abordagens baseadas em Técnicas Lingüísticas 29
formais para esses dados, o que incorpora algum nível de expressividade semântica aos documentos;
• Criação de ontologias a partir de fontes não estruturadas envolve a construção de ontologias a partir de textos utilizando-se técnicas de pro- cessamento de linguagem natural. Esses textos apresentam vários níveis de informação que são representadas através de características e restri- ções sintáticas, morfológicas, semânticas e pragmáticas, atributos que convergem para expressar significados particulares. Ferramentas que aprendem ontologias a partir de linguagem natural utilizam a interação entre essas características e restrições para identificar conceitos e estabe- lecer relações entre eles.
A seguir são discutidas as principais abordagens que têm sido estudadas para a construção semi-automática de ontologias de domínio. Todas elas são relacionadas ao processamento de linguagem natural embora difiram nas téc- nicas utilizadas e na forma de manipulação dos textos, o que permite uma dis- tinção em abordagens baseadas em métodos lingüísticos, abordagens basea- das em métodos estatísticos e, finalmente, abordagens baseadas em métodos de aprendizado de máquina.
3.1 Abordagens baseadas em Técnicas Lingüísticas
As abordagens ligadas a técnicas lingüísticas baseiam-se tipicamente em aná- lises sintáticas e morfológicas dos textos. Essas análises identificam elementos de linguagem que são eventualmente utilizados para a extração de padrões lingüísticos, para o cálculo de medidas de proximidade ou relacionamento se- mântico, por exemplo. Outra característica importante explorada por essas abordagens é a posição que os vários elementos ocupam nos padrões identifi- cados e que outros elementos estão próximos a eles no texto.
Aussenac-Gilles, Biebow e Szulman (2000) estabeleceram um método de análise de um corpus através do uso de técnicas de Processamento de Lingua- gem Natural (NLP, na sigla em inglês) para criação de uma ontologia. Esse método prevê também o uso de ontologias já existentes, bem como outros re- cursos terminológicos, para essa construção. Em linhas gerais o método pode ser decomposto nos passos abaixo.
3.1 Abordagens baseadas em Técnicas Lingüísticas 30
tologia a ser construída são selecionados para formar o corpus. Tipica- mente, especialistas da área formam um glossário dos termos do domí- nio e selecionam textos que contenham esses termos para formação do corpus.
• Análise Lingüística. Nesta atividade extraem-se do corpus os termos do domínio, as relações léxicas existentes entre eles e possíveis sinônimos. Os termos são escolhidos baseados na freqüência de ocorrência no texto, enquanto a extração de relações é apoiada por alguns padrões lingüísti- cos pré-estabelecidos. As ferramentas e técnicas utilizadas são específicas da língua sendo tratada.
• Normalização. O ontologista, isto é, o especialista que controla a cria- ção da ontologia, seleciona então as relações léxicas (hiperônimo1, hipô-
nimo2, etc.) que deseja incluir na ontologia. Ele também adiciona defini-
ções em linguagem natural para os termos selecionados.
Alfonseca e Manandhar (2002b, 2002a) estabeleceram uma abordagem para estender uma ontologia já existente e se basearam na identificação de proprie- dades contextuais de palavras que co-ocorrem com cada grupo de conceitos. Essas propriedades são utilizadas para agrupar conceitos em uma ontologia ou para adicionar conceitos novos a uma ontologia já existente. A hipótese bá- sica utilizada na abordagem é uma intitulada “Semântica Distributiva” e que afirma que o significado de uma palavra é altamente correlacionada com o contexto em que ela aparece. Cada conceito é representado por um conjunto de palavras que com ele co-ocorrem e pela freqüência com que elas apare- cem. Esse contexto é codificado usando-se vetores de palavras, tal como feito por Lin e Hovy (2000) em sua assinatura de assunto (topic signatures). Algu- mas métricas de similaridade, tais como o TF.IDF (SALTON, 1991) são utiliza- das para mensurar as distâncias entre os diversos conceitos. Uma das carac- terísticas desse método é que ele necessita de textos em que várias ocorrências dos conceitos ocorram para que exista suficiente informação contextual para construção dos vetores.
1Hiperônimo é o nome que se dá ao termo cujo sentido inclui aquele (ou aqueles) de um
ou de vários outros termos. Ex. “Animal” é um hiperônimo de “cavalo”, “baleia”, etc.
2Hipônimo é uma palavra cujo significado é hierarquicamente mais específico que o de
uma outra. Por exemplo, “abóbora” ou “tomate” estão em relação de hiponímia relativamente a “legume”.