O processamento dos dados é a tarefa mais ambiciosa em todo o sistema, tendo em conta que o objectivo é sintetizar a informação de documentos que não contêm a respectiva informação semântica. O recurso a técnicas de Recuperação e de Extracção de Informação foi fundamental para a concretização desta tarefa.
Tendo em conta que a maioria dos documentos disponibilizados na Web não possui a informação semântica, este objectivo é essencial, permitindo explorar fontes de dados não frequentes. Existem diversas razões pelas quais os documentos continuam a não ser disponibilizados com informação semântica. A esmagadora maioria dos documentos continua a ser criada em formatos focados na apresentação dos dados, e. g., HTML o que inviabiliza imediatamente a inclusão de adicional. No caso da utilização de formatos de dados que permitem a inclusão de conteúdo semântico, e. g., XML, continuam a não existir terminologias universais que permitam a sua extracção de forma unívoca. Mesmo na
informação disponível sem a respectiva informação semântica. Isto acontecerá por não ter sido capturada de forma involuntária por não ser o enfoque da mensagem do autor ou, voluntariamente, no caso do autor querer apresentar a informação mas não pretender o seu processamento automático. A disponibilização de informação sobre produtos é um bom exemplo. Mesmo que venha a existir uma ontologia que defina de forma unívoca todos os produtos e serviços, dificilmente será adoptada uma vez que permitirá o processamento automático dos dados, o que poderia contribuir para diminuir a margem de lucro dos comerciantes.
A abordagem adoptada para a recuperação de informação segue a sequência de tarefas apresentada na Figura 14. A primeira tarefa visa a filtragem dos documentos que não apresentam informação relevante para o utilizador. A segunda tarefa, efectuada somente sobre os documentos seleccionados, visa o reconhecimento dos conceitos apresentados nos documentos e a última tarefa visa a sua classificação.
Documentos seleccionados Reconhecimento dos conceitos Filtragem Documento Classificação dos conceitos Arquivo Conceitos reconhecidos Conceitos Classificados Processamento
dos dados Documentos seleccionados
Reconhecimento dos conceitos Filtragem Documento Classificação dos conceitos Arquivo Conceitos reconhecidos Conceitos Classificados Processamento dos dados
Figura 14 – Apresentação das tarefas associadas ao processamento dos dados
Tendo em conta que se pretende monitorar um conjunto de sítios Internet e sendo expectável que os sítios armazenem muita informação irrelevante para o utilizador, a primeira tarefa do processamento de dados consiste na identificação dos documentos relevantes na óptica do utilizador, com o objectivo de realizar uma filtragem de informação. Desta forma, reduz-se o esforço efectuado nas tarefas seguintes, uma vez que, somente, os documentos considerados importantes serão posteriormente analisados para extracção de informação.
Este processo de filtragem tem que ser extremamente eficiente devido à elevada quantidade de informação a processar. A sua eficácia é igualmente determinante, tendo em conta que as falhas contribuem negativamente para o desempenho do sistema de duas formas: i) na
eliminação de páginas relevantes, equivalendo à perda de informação e ii) na selecção de páginas irrelevantes, contribuindo para dificultar o processamento efectuado nas fases seguintes.
A determinação da noção de relevância é todavia uma das tarefas mais ambiciosa, tendo em conta que se pretende automatizar a aquisição da informação. A automatização permite evitar submeter o utilizador a um processo moroso e complexo de descrição dos seus interesses, o que diminuiria a atraccão global do sistema.
A utilização de técnicas de recuperação de informação em texto, com o recurso à aprendizagem supervisionada foi a aproximação seguida para a obtenção desta capacidade. A extracção do conhecimento sobre a relevância dos documentos é, assim, efectuada a partir de um corpus composto por exemplos positivos e negativos.
A actividade seguinte visa o reconhecimento de conceitos permitindo o seu armazenamento no catálogo. O objectivo é identificar os conceitos apresentados, extraindo os seus dados, a partir de documentos que não disponibilizem informação semântica. Esta tarefa, realizada somente sobre os documentos previamente seleccionados no processo de filtragem, visa a identificação de padrões que permitam assumir a presença dos conceitos a catalogar. No exemplo da identificação de produtos, visa identificar a presença de um produto e a sua informação respectiva.
A estratégia adoptada para a obtenção desta capacidade, foi a extracção de informação em texto com o recurso a um motor de inferência de regras «se-então» que permitam descrever o formato de apresentação dos dados. Desta forma, cabe ao utilizador descrever a forma mais comum de apresentação dos dados que pretende armazenar no catálogo, permitindo ao sistema o seu reconhecimento posterior. O resultado desta tarefa são conjuntos de informação, que se espera correlacionados com o conceito que se pesquisa.
A classificação dos conceitos é o obstáculo final para a realização do processamento dos dados. Após o reconhecimento dos conceitos e a recolha dos seus dados é necessário fazer a sua classificação, o que permitirá o seu correcto armazenamento.
A abordagem a este problema baseia-se na utilização combinada de duas aproximações, com a utilização de palavras-chave, que permitem identificar conceitos, e no processamento dos URI das páginas. No primeiro caso, a classificação dos conceitos é baseada na informação extraída, fazendo-se por referência inversa, i. e., a informação recolhida é utilizada para identificar o conceito mais provável, permitindo assim a sua classificação. Naturalmente, que esta aproximação obriga à descrição dos conceitos com base nas palavras-chave mais comuns. No segundo caso, o processamento dos URI, visa explorar o facto de grande parte dos sítios Internet de disponibilização de informação serem cada vez
páginas são construídas em consequência das solicitações dos utilizadores. Nestes casos, os URI contêm usualmente informação crucial, sobre a categoria dos produtos apresentados. Uma vez mais, esta solução obriga ao processamento manual da informação, mas, neste caso, de forma mais genérica, tendo em conta que se está a trabalhar ao nível das categorias de produto, e não nos produtos específicos, e. g., a descrição é realizada para máquinas fotográficas digitais e não para a máquina X modelo Z.
Apresenta-se de seguida um exemplo, assumindo uma vez mais o interesse do utilizador na construção de um catálogo de produtos. A Figura 15 apresenta casos ilustrativos de potenciais páginas Internet. A imagem à esquerda, apresenta informação genérica de apresentação da empresa, pelo que não é relevante para a construção do catálogo de produtos, devendo ser assim eliminada, durante a tarefa de filtragem. À semelhança desse documento, todos os documentos que não apresentem informação sobre produtos devem ser eliminados. As restantes páginas da Figura 15, já apresentam informações sobre os produtos disponíveis, todavia só a página à direita apresenta os custos associados, pelo que deveria ser a única seleccionada. Neste exemplo, eliminar páginas que não são relevantes para o utilizador, significa eliminar páginas que não apresentem produtos especificamente para venda.
Figura 15 – Páginas da internet que permitem ilustrar as diferenças entre as duas primeiras tarefas de captura de conhecimento
A tarefa de reconhecimento de conceitos, neste exemplo, procura identificar os produtos apresentados nas páginas previamente seleccionadas. No exemplo apresentado na Figura 15 procura-se identificar a existência dos produtos apresentados em tabelas, com uma referência, descrição e preço. Como se pode constatar por comparação das duas figuras a apresentação dos produtos varia entre lojas virtuais, e mesmo no caso em que o formato de apresentação é semelhante (em forma de tabela), a sua aparência pode ser muito distinta. Neste sentido, a construção de regras genéricas é determinante para assegurar a abrangência do sistema.
Finalmente, a última tarefa, que é a classificação dos conceitos, neste caso dos produtos. Após a recolha da informação associada a um conceito com as regras pré-definidas é necessário fazer a sua classificação para posterior arquivo. Neste caso, é necessário conseguir identificar que os produtos a serem vendidos são máquinas fotográficas.