O carácter abstracto da arquitectura geral obriga à sua derivação para casos particulares, possibilitando pesquisas de informação específicas e adequadas às necessidades do utilizador. Apesar do sistema ser iniciado com um conjunto base de regras, (conhecimento inicial), responsável por um comportamento-base genérico, só o conhecimento crescente sobre o utilizador permite a criação de novas regras assegurando a sua personalização. A derivação do sistema é realizada pela particularização do sistema de pesquisa autónoma. A metodologia de derivação assenta na execução das seguintes fases: i) definição da ontologia de representação de domínio; ii) indução do SAD para o Navegador; iii) definição do SAD para o Explorador; e iv) Personalização da ontologia para o Catalogador.
O agente Tutor auxilia a realização de todas as fases permitindo libertar os restantes agentes destas tarefas mantendo a sua estrutura leve, desprovida de capacidades de inferência de conhecimento ou de descrição de novas regras. O Tutor fica assim encarregue de sintetizar os novos comportamentos, num processo paralelo ao funcionamento normal, e de enviar os resultados aos agentes destino, nomeadamente aos Navegadores, aos Exploradores e ao Catalogador. O condicionamento do comportamento dos agentes é efectuado pelo envio de mensagens que descrevem a informação a transferir.
i) Definição da ontologia de representação do domínio
A primeira fase de derivação do sistema particular visa a representação do conhecimento reconhecido em cada sistema particular e é efectuado pela definição da ontologia de domínio. A arquitectura de referência prevê que a ontologia represente dois domínios de conhecimento: i) conhecimento sobre os assuntos considerados relevantes; ii) conhecimento sobre os conceitos catalogáveis. A sua especificação é encarada como uma acção de importação de duas ontologias de domínio.
O domínio sobre assuntos relevantes é utilizado essencialmente no âmbito do agente Navegador, como base de classificação do corpus, e posteriormente de classificação dos documentos analisados.
O domínio de conceitos catalogáveis, é empregue em todo o sistema, estando presente desde a interface de consulta, até aos agentes que têm como função identificar e reconhecer os conceitos catalogáveis.
Somente após a definição consistente da ontologia é possível iniciar as acções seguintes de derivação, que podem ser realizadas em paralelo.
ii) Indução do SAD para o Navegador
Esta fase consiste em assegurar ao Navegador a capacidade de classificar os documentos que analisa como pertencendo a assuntos considerados relevantes ou irrelevantes. Neste sentido, é necessário executar a sequência de acções tradicionalmente associadas às tarefas de recuperação de informação em texto conducentes à indução do SAD. O recurso às técnicas utilizadas, assegura ao sistema a capacidade de adequação às necessidades e requisitos dos utilizadores, garantindo uma adaptabilidade incrementalmente às suas necessidades particulares.
As acções a executar, com o auxílio do agente Tutor, são:
i) A criação da base de dados, o corpus, de exemplos classificados segundo a ontologia de domínio de assuntos relevantes, utilizado pelos algoritmos de aprendizagem;
ii) A selecção das características mais relevantes através do conjunto de algoritmos disponibilizados, permitindo assim a eliminação de características redundantes, desnecessárias e indutoras por ruído;
iii) a indução de classificadores, através do conjunto de algoritmos de indução de classificadores que podem ser utilizados na criação de sistemas de tomada de decisão;
iv) a indução de SAD, pela determinação de qual o melhor método de combinação dos classificadores criados;
v) a exportação dos resultados para os agentes activos.
Após a execução desta tarefa o sistema fica capacitado para reconhecer os assuntos considerados relevantes, passando o Navegador a poder efectuar a filtragem dos documentos que encontra na Web.
iii) Definição do SAD para o Explorador
Esta fase consiste em assegurar ao Explorador a capacidade de extrair a informação sobre os conceitos descritos na ontologia de domínio dos conceitos catalogáveis.
O reconhecimento dos conceitos é realizado através da utilização de um motor de inferência com utilização de regras forward «se-então», que descrevem as formas típicas de apresentação dos dados, e pela análise do elo de referência do documento.
A execução desta fase passa, assim, pela execução das seguintes tarefas:
i) identificar as formas típicas de apresentação de informação e fazer a sua descrição com a utilização de regras (regras de apresentação), e. g., uma forma típica de apresentação de informação é a utilização de tabelas;
ii) descrever a relação entre os descritivos do conceito e os elementos de dados extraídos com as regras de apresentação, i. e., atribuir significado semântico aos dados extraídos para cada componente;
iii) descrever as palavras-chave apresentadas no elo de evocação da página para permitir a extracção de informação semântica associada aos elos.
O Tutor disponibiliza uma interface de utilizador que permite a definição de regras de inferência «se-então» que permitem a identificação dos conceitos e da descrição dos elos.
iv) Personalização da ontologia para o Catalogador
Esta fase consiste em assegurar ao agente Catalogador a capacidade de reconhecer conceitos segundo a ontologia de domínio. O reconhecimento dos conceitos é realizado por comparação das palavras-chave compostas, com as palavras atribuídas a cada conceito da ontologia. Desta forma, cada conceito da ontologia tem que ser descrito com um conjunto de palavras que permitem o seu reconhecimento posterior.
Neste sentido, esta fase passa pela definição para cada conceito, que se pretende reconhecer, de um conjunto de palavras-chave que permitam o seu reconhecimento futuro pelo sistema. O conjunto de palavras utilizadas para a descrição de cada conceito deve ser o mais rico possível, contudo os conjuntos utilizados devem ser disjuntos para evitar ambiguidades.