O Explorador tem como função coordenar o processamento dos documentos seleccionados pelo Navegador e enviar a informação coligida para o catálogo. O processamento de cada documento, divide-se na identificação dos conceitos presentes e sua respectiva classificação. Compete ao Navegador identificar os conceitos e solicitar a sua classificação ao agente catalogador, responsável pela estimativa, em função da informação recolhida. Dependendo do sucesso da classificação, cabe ao Explorador enviar a informação recolhida directamente aos agentes interface de catálogo ou para interface de classificação manual. A Figura 25 apresenta o Explorador, os agentes com que interage e as mensagens trocadas.
O grande desafio deste agente reside assim na identificação dos conceitos relevantes para o utilizador, uma vez que as páginas na Web estão fundamentalmente preparadas para apresentarem informação a humanos, dificultando o processamento automático. Na verdade, são ainda raras as páginas que utilizam protocolos que permitam a automatização de processos (e. g., XML), pelo que a Web está repleta de informação de apresentação, que tem que ser evitada com vista a ser possível a recuperação dos dados. O comportamento genérico do Explorador, caracteriza-se assim por aguardar uma mensagem que sinalize a existência e localização de um novo documento. Cada novo
documento é carregado localmente e o seu conteúdo é analisado em busca dos conceitos armazenados. Os conceitos reconhecidos são enviados para classificação ao agente catalogador que responde com a sua estimativa. Em função da resposta, os dados são enviados para o catálogo ou para a interface de classificação manual.
Novo conceito
Catalogador
Explorador
Envia estatísticas e conceitos Libertado
Qual o estado?
Conceito e estimativas de classificação
Página seleccionada Libertado Classificador Manual Navegador HMI Estimativa de classificação Estado Estatística e conceitos Agente Catálogo Conceito e estimativa Novo conceito Catalogador Explorador
Envia estatísticas e conceitos Libertado
Qual o estado?
Conceito e estimativas de classificação
Página seleccionada Libertado Classificador Manual Navegador HMI Estimativa de classificação Estado Estatística e conceitos Agente Catálogo Conceito e estimativa
Figura 25 – Representação lógica do Explorador, dos agentes com que interage e respectivas mensagens. O tracejado representa mensagem de resposta, às mensagem a partir da qual têm origem
Com vista à efectivação do comportamento genérico, o agente exibe o seguinte conjunto de comportamentos-base: i) Identificação de conceitos; ii) Solicitação da classificação dos conceitos; iii) Envio da informação para os sistemas a montante.
O comportamento de identificação de conceitos é realizado com o recurso a um SAD de regras, que é armazenado numa base de dados de conhecimento (BDC) local. As regras de inferência são baseadas no mecanismo «se-então», e são definidas manualmente, i. e., não existe aprendizagem automática.
As regras são construídas por análise crítica e são essencialmente baseadas nos processos comuns de apresentação dos conceitos. Uma análise detalhada dos documentos armazenados no corpus de exemplos permite a identificação das regras que facultam ao Explorador reconhecer a localização dos conceitos.
Um exemplo ilustrativo de um regra para identificação, no caso em que os conceitos são produtos, é a existência de uma tabela com um cabeçalho, contendo determinadas palavras que classificam as colunas, e. g., descrição, preço, referência ou sinónimos.
As regras são descritas com o auxílio do agente Tutor, que as transfere por mensagem para os Exploradores, afectando o seu comportamento.
O comportamento de solicitação de classificação dos conceitos, permite por cada conceito reconhecido fazer uma tentativa de classificação por consulta ao agente catalogador, detentor de todas as regras de classificação dos conceitos referentes à
composta, calculada tendo em consideração o URL da página, e as informações recolhidas sobre o conceito. As regras de definição da palavra-chave são definidas uma vez mais com o recurso às regras «se-então» (e. g., se for identificada a referência de produto junto à palavra-chave). Desta forma, assim que a informação sobre um conceito fica definida, a palavra-chave composta é construída, com o recurso às regras «se-então» armazenadas na base de conhecimento do Explorador. A palavra-chave composta é utilizada pelo catalogador na pesquisa da ontologia para identificação do conceito.
O comportamento de envio de informação para os sistemas a montante permite o processamento das respostas enviadas pelo Catalogador. Por cada solicitação de classificação de conceito, o Explorador recebe do catalogador um dos seguintes tipos de resposta:
• o conceito é identificado como pertencente a uma única classe, o que desencadeia o envio imediato do conceito e toda a informação recolhida para o catálogo;
• o conceito é identificado como pertencente a um conjunto de classes, não permitindo a decisão automática, o que obriga ao recurso da interface de classificação manual;
• o conceito não é reconhecido, o que uma vez mais força o envio para a interface de classificação manual, sem qualquer sugestão.
O Explorador ignora as limitações visuais definidas pelo utilizador à ontologia, reportando ao catálogo todos os conceitos identificados; desta forma, o Explorador não elimina conceitos que por definição do utilizador não são num dado momento relevantes, permitindo a existência de dados sempre que o utilizador altera a configuração da ontologia visível.
A interface desenvolvida para o Explorador, apresentada na Figura 26, disponibiliza duas zonas principais: i) listagem dos documentos analisados; e ii) listagem dos conceitos identificados e classificação atribuída por documento analisado.
Figura 26 – Interface do Explorador, permite a listagem de todos os documentos analisados e a listagem por documento, dos conceitos identificados e da classificação atribuída
A zona esquerda da janela apresenta a listagem dos documentos analisados, sendo possível a sua consulta directa por selecção da linha através da evocação do navegador Internet instalado por omissão no posto de trabalho. Desta forma, o utilizador pode consultar a validade da análise realizada, por comparação com os dados do documento e pelos dados coligidos. Os dados extraídos para cada documento são listados na zona direita da janela.