As tarefas e os módulos funcionais da arquitetura são motivados em estudos das áreas de processamento de linguagem natural e BI. Boa parte dos pontos fortes e fracos desses estudos são herdados na arquitetura. Por conta disso, as características pontuais oriundas dos trabalhos relacionados podem ser discutidas individualmente e, no ponto de vista sistêmico, esta proposta pode ser comparada a outras arquiteturas de BI baseadas em conhecimento e em linguagem natural.
A etapa relacionada à interpretação de perguntas baseia-se principalmente nos frameworks propostos por Lopez (et. al., 2007) e Wang (et. al., 2007). As contribuições desses frameworks a esta pesquisa estão associadas basicamente ao uso de ontologias para auxiliar as tarefas de reformulação e a representação formal da pergunta a partir dos caminhos. Esses autores chegam a avaliar os benefícios do uso de ontologia quando aplicados também em fontes de dados estruturadas ou banco de dados, tal com neste trabalho. Eles concluem que a ontologia é uma alternativa portátil para a representação de conhecimento em qualquer domínio e ainda oferecem expressividade para a interpretação semântica das perguntas e obtenção de respostas nesses tipos de fontes. Kaufmann e Bernstein (2007) complementam a idéia acima afirmando que a aplicação de ontologias e métodos de QA em bases de dados estruturadas provêem formas mais intuitivas onde os usuários finais dão preferência em relação a buscas por palavras-chave, interfaces gráficas ou baseadas em menus.
Em distinção, os frameworks de Lopez (et. al., 2007) e Wang (et. al., 2007) tentam criar uma representação intermediária da pergunta antes de obter informações contextuais da ontologia. Essa representação é formada por triplas, tal como no modelo RDF, que são geradas somente por regras sintáticas e gramaticais do idioma. Essas triplas são usadas como entrada para um módulo semelhante ao Motor de Busca por Similaridade, cuja intenção basicamente é localizar o melhor caminho da ontologia. Nesse processo, o usuário também participa dos processos de desambiguação de conceitos e relações até obter a formalização final da pergunta. Diferentemente deste trabalho, a versão atual desses frameworks não suporta perguntas com quantificações e mensurações de informações (exemplo, perguntas iniciadas por Quantos, Quantas, etc.), por outro lado, viabiliza outros tipos de questões (exemplo, Quais, Quem, Onde, etc.). Embora o objetivo seja a obtenção de um cubo OLAP, na qual o uso das stop-words Quantas,
Quantos, etc. são mais adequados, a arquitetura proposta não limita quanto ao uso de outros tipos de questões factuais (por exemplo, Quem, Onde, Qual, Quando, etc.). As stop-words usadas para a identificação desse tipo de pergunta podem ser associadas aos padrões e heurísticas para o reconhecimento de medidas, agrupamentos ou filtros conforme desejado.
Os trabalhos destinados a transformar a pergunta em uma linguagem formal de consulta, como SPARQL (sobre a base de conhecimento e modelo da ontologia em OWL) ou SQL (sobre os bancos de dados relacionais), comumente utilizam padrões e heurísticas para identificação dos elementos da consulta (WANG, et. al., 2007; MENG; CHU, 1999). No entanto, a maioria desses trabalhos apresentam formas individualizas de uso de stop-words para a avaliação desses elementos. Para facilitar a formalização do conjunto de padrões e heurísticas, este trabalho sugere uma classificação para o conjunto de stop-word. Essa classificação permite que os padrões idiomáticos ou heurísticas sejam determinados tanto para a categoria de stop-word quanto para uma stop-word específica.
A ambigüidade e os problemas de interpretação das stop-words de seleção usadas para a construção de filtros, especificamente as que determinam os operadores lógicos (AND e OR), são também comentados por Lopez (et. al., 2007) e Smart (2008). Esta proposta utiliza os tokens E e OU exatamente como seus respectivos operadores lógicos (AND e OR) quando associados aos critérios de filtros. Isto porque, mesmo que o E lingüístico seja confundido com os operadores lógicos (AND ou OR), permite que ambos os operadores sejam utilizados na pergunta. Dessa forma, usuário pode levar em conta a semântica que deseja atribuir para um determinado critério de filtro.
Com base nas pesquisas de Sell (2006; et. al., 2008) e Silva (2006), todos os elementos do data warehouse devem ser anotados e mapeados à ontologia de domínio por meio da Ontologia BI. Essa anotação semântica de fontes de dados é vista também nas abordagens de QA baseadas na Web Semântica, onde também sentenças textuais são extraídas a partir de repositórios de documentos anotados (LOPEZ, et. al., 2007; THAI, et. al., 2006). Esses tipos de anotações requerem que os esquemas ou estruturas das fontes de dados sejam configurados e relacionados de acordo com os conceitos do domínio. Dado um grande número de dimensões e tabelas de fato no data warehouse, esta atividade pode ser custosa, de modo que meios automáticos ou semi-automáticos podem ser desenvolvidos. Não é escopo deste trabalho tratar a engenharia de ontologias e a manutenção de bases de conhecimento, e
por isso, outras iniciativas, como as propostas de Ceci (et. al., 2010) e Ghisi (2008) podem ser aplicadas em colaboração à arquitetura.
Conceitualmente, alguns trabalhos de QA utilizam o termo inferência ou raciocínio com relação à tarefa de extrair a sentença textual exata a partir de documentos segundo a sintaxe da pergunta
(KAUFMANN; BERNSTEIN, 2007; DAMLJANOVIC;
AGATONOVIC; CUNNINGHAM, 2010). Neste trabalho, trata-se como inferência a tarefa de derivar ou explicitar novas informações (relacionamentos ou conceitos do domínio) a partir da aplicação das regras de inferência sobre a base de conhecimento. Essas informações são úteis para que a geração de novas análises. Isto é, as conclusões semânticas procedentes do processo de inferência são compartilhadas em uma visão sumarizada juntamente com as informações estratégicas do data warehouse. Para tal, esta proposta busca inspiração na arquitetura SBI (SELL, 2006; et. al.; 2008) e nas abordagens de processamento de inferências on-the-fly e in-batch.
O uso de funções e cálculos para a criação de consultas, embora seja comum nas soluções de BI, é pouco explorado na literatura relacionada aos sistemas de QA e interfaces de linguagem natural para banco de dados. Funções e cálculos são vistos nas linguagens de consulta (SQL, SPARQL, dentre outras) e também na sintaxe das regras dos mecanismos de inferência (MCBRIDE, 2002). Neste trabalho, para facilitar a vinculação a determinados termos usados pelo tomador de decisão, todas as funções e cálculos são especificados conforme uma sintaxe XML própria. Assim, uma das contribuições deste trabalho é permitir o uso de funções nas análises a partir de terminologias específicas informadas na pergunta. Conforme mostrado, os resultados das funções ou cálculos são usados como valores de filtros para as operações de slice and dice.
Quanto à aplicação de linguagem natural em plataformas de apoio à decisão, verifica-se que as tendências da área de BI já podem ser percebidas na prática. Dentre as soluções de mercado disponíveis, destacam-se Semantra e EasyAsk. Semantra possui uma arquitetura dividida semelhante as três etapas utilizadas neste trabalho: 1) um repositório hierárquico de conceitos, ontologias e regras de negócio denominado OntoloNet que fornece o contexto da pergunta e o mapeamento para as fontes de dados; 2) um interpretador semântico para a análise lingüística da pergunta; 3) um gerador de consultas SQL responsável por retornar as informações do data warehouse. Já a solução EasyAsk se baseia em dicionários de sinônimos e thesaurus para analisar as perguntas, resolver erros de escrita e considerar o contexto de
aplicação. Com relação a esta proposta, as duas soluções permitem ainda a visualização de gráficos, e relatórios por meio de perguntas ou palavras-chave, além do retorno de cubos OLAP. EasyAsk, em particular, torna possível a integração de fontes heterogêneas e retorno de documentos em um mesmo ambiente analítico. Ambas as soluções possuem mecanismos de desambiguação e recomendação de perguntas baseadas no contexto conforme os termos de entrada. Esses projetos comerciais demonstram que a unificação de ambientes de busca ou linguagem natural com plataformas de BI é viável na prática e oferece um modo rápido e intuitivo de efetuar análises.