Os actuais sistemas de pesquisa podem ser vistos como verdadeiros sistemas globais, extravasando, em muito, o domínio físico de uma biblioteca ou de uma rede de bibliotecas e atingindo um universo esmagadoramente superior de documentos.
Existe um conjunto alargado de iniciativas com o objectivo de contornar as dificuldades encontradas na pesquisa de informação. No âmbito das soluções apresentadas na óptica da criação de sistemas de suporte à pesquisa realçam-se, entre os mais bem sucedidos, os baseados em palavras-chave. A simplicidade de utilização aliada a resultados aceitáveis transformou estes sítios em portas de acesso. De uma forma genérica, após a introdução de um conjunto de palavras-chave, o sistema encarrega-se de devolver um conjunto de documentos que, potencialmente, contêm a informação solicitada. O sucesso desta operação está intimamente relacionado com a sua eficácia, mas, igualmente, com a experiência do utilizador na selecção acertada de palavras que identifiquem, inequivocamente, os assuntos que deseja. Apesar de existirem casos de especialização, a maioria dos sistemas são multidomínio, encarregando-se de analisar toda a Web.
Os primeiros portais de pesquisa a surgir foram os directórios Web que implementaram um mecanismo semelhante ao das páginas amarelas. Para além de um processo de busca por palavra-chave é possível procurar informação por navegação em árvores de categorias. A utilização das categorias, baseia-se num processo incremental, iniciado pelas mais genéricas e conduzindo, progressivamente, às mais específicas. Esta funcionalidade está fortemente relacionada com a catalogação manual das páginas em categorias, exigindo uma forte intervenção humana directa.
O Yahoo! é um dos mais antigos serviços de directório na Web, tendo iniciado o seu funcionamento em Agosto de 1994. Os documentos foram integralmente classificados por um processo manual, numa taxinomia de termos, até Outubro de 2002, estimando-se que, somente 4 por cento dos sítios submetidos foram indexados. Nessa data, o Yahoo! substituiu as listas de directoria compiladas manualmente por pesquisas no Google, o que, apesar de lhe permitir manter a supremacia, ofereceu ao Google uma visibilidade que se veio a tornar prejudicial. Desde então, procurou endogeneizar tecnologia de pesquisa e indexação tendo, inclusive, adquirido o motor de pesquisa Inktomi. Surpreendentemente, em Fevereiro de 2004 o Yahoo! anunciou a substituição do Google, não pelo Inktomi, mas sim por um novo motor de pesquisa desenvolvido internamente. Actualmente, o Yahoo! continua a disponibilizar o directório actualizado de forma híbrida, permitindo pesquisas de documentos através do seu novo motor de pesquisa, de imagens através do Google e de notícias através do seu directório de categorias [9].
O LookSmart é outro dos sobreviventes aos conturbados anos de aquisições em cadeia. Uma vez mais, o que distingue este portal é o seu sistema de directorias que facilita uma pesquisa por assuntos. A sua colecção de documentos manualmente classificados permite assegurar uma elevada qualidade de resultados [10].
possuem programas de busca e classificação de páginas de forma automática, chamados navegadores6. Nestes sistemas existe pouca intervenção humana na indexação das páginas, o que viabiliza o cadastro de um número gigantesco de páginas. Em consequência da abrangência do tipo de informação armazenada, podem ser considerados especialistas ou generalistas. Os motores generalistas mais conhecidos são o AltaVista (www.altavista.com), o Google (www.google.com), o Lycos (www.lycos.com), o AlltheWeb (www.alltheweb.com), o AOL (search.aol.com/aolcom/index.jsp), e o Gigablast (www.gigablast.com) devido às suas características de indexação de páginas multidomínio. Todavia, apesar dos sítios manterem uma identidade própria, partilham a tecnologia de motor de pesquisa que é propriedade do Google e do Yahoo!. Em [11], na lista dos 10 melhores motores de pesquisa, somente o Gigablast possui tecnologia própria, os restantes portais utilizam uma das duas soluções.
O Altavista continua a marcar a diferença, visto funcionar como um sistema de páginas amarelas da Web e realizar a indexação de páginas completas. Para além de ser um dos primeiros motores de pesquisa baseado em palavra-chave, criou o primeiro motor de pesquisa multilingue e, posteriormente, inovou uma vez mais, com a introdução de capacidades de pesquisa em documentos de língua chinesa, japonesa e coreana, através do seu tradutor Babel Fish.
Porém, nos últimos anos, o Google afirmou-se como o motor mais poderoso. Distinguiu-se pela quantidade de documentos catalogados, bem como no cálculo da sua relevância para cada pesquisa específica. Os documentos são seleccionados por grau de semelhança entre os termos da pergunta e a representação do documento. Todavia, a ordem de apresentação dos documentos é condicionada por um sistema de cotação que privilegia os documentos mais referenciados em detrimento dos documentos isolados. A «referenciação» é efectuada em função do conjunto de elos que apontam para o documento em causa. Tendo em conta que cada pesquisa pode identificar milhares de documentos, o Google investiu num mecanismo de ordenação com vista a privilegiar os mais relevantes para o utilizador. Em Fevereiro de 2004 o Google anunciou a indexação de 4,3 mil milhões páginas Web [7]. Contudo, o domínio do Google está constantemente a ser posto à prova com o surgimento de novas iniciativas resultantes da introdução de novas técnicas e métodos de indexação. A mais recente, em Março de 2004, foi lançada pelo Yahoo!, de novo em busca da posição de topo.
Os motores de pesquisa especialistas são menos famosos, em consequência da sua especificidade. Na área da investigação, o CiteSeer (http://citeseer.nj.nec.com/) é um dos mais conhecidos pela sua característica indexação de páginas de artigos científicos
publicados. Todavia, as grandes universidades, os melhores laboratórios de investigação e multinacionais também possuem motores de pesquisa especialistas de extrema utilidade nas sua áreas de actuação.
Apesar do aparecimento desta multiplicidade ao longo dos tempos, existe uma matriz comum característica, ilustrada na Figura 3, composta pelos sistemas de navegadores, de armazenamento de dados, de filtragem, de indexação e de interpretação de pesquisas.
Naveg.
WWW World Wide Web
Naveg. N Naveg. 1 Navegadores Sistema de pesquisa Filtro de documentos Filtro/Ordenação de documentos Interpretadores de pesquisa
Interface com utilizador
Base de Dados Sistema de indexação
Indexador Naveg.
WWW World Wide Web
Naveg. N Naveg. 1 Navegadores Sistema de pesquisa Filtro de documentos Filtro/Ordenação de documentos Interpretadores de pesquisa
Interface com utilizador
Base de Dados Sistema de indexação
Indexador
Figura 3 – Arquitectura genérica dos sistemas de pesquisa
O sistema de navegadores tem por objectivo navegar na Web e fazer o carregamento local da informação, efectuando em tempo diferido a localização, recolha e actualização de documentos. Têm a constante tarefa de manter páginas actualizadas o que os obriga a percorrer, em contínuo, toda a Web.
O sistema Indexador de documentos é responsável por extrair as palavras que passarão a representar o documento no momento da pesquisa. A solução típica passa por seleccionar o conjunto de palavras que melhor definam o documento. A selecção das palavras é crítica, tendo em conta que, quanto menor for o seu número menor será o sistema de indexação e menor será a relação com o documento. Existem algumas técnicas de compactação que são utilizadas, tais como a passagem de todas as letras a minúsculas, redução das palavras à sua raiz morfológica, e a utilização de listas de palavras frequentes, i. e., listas paragem. O sistema de armazenamento de dados é composto pelo subsistema de indexação e por uma base de dados para páginas carregadas. Usualmente, o sistema de indexação está baseado numa filosofia de indexação de ficheiros invertida, i. e., a localização do ficheiro é realizada através das palavras que o compõem. O índex é previamente construído no
processo de manutenção e actualização da base de dados. Tipicamente, o sistema de índex de ficheiro é uma estrutura em árvore de palavras que representam o documento; nas folhas estão armazenadas as palavras, a sua posição e a localização do documento. Este é o módulo crítico do sistema de pesquisa não sendo divulgado em detalhe. Todavia, a sua implementação é baseada na combinação de algoritmos de indexação, entre eles, tabelas de hash e árvores.
O sistema interpretador de pesquisas tem a seu cargo a responsabilidade de receber os dados fornecidos pelo utilizador e procurar os documentos que mais se assemelham, por comparação com a representação adoptada. Os documentos mais semelhantes são, então, apresentados e ordenados por grau de semelhança. As pesquisas mais comuns são feitas através:
• Palavras : Esta é a pesquisa-base e procura localizar documentos que contenham as palavras introduzidas. As palavras são utilizadas na pesquisa directa no índice. Esta pesquisa, por vezes, é enriquecida pela associação de semântica a cada palavra, i. e., pela descrição da utilização da palavra no documento: texto, título, nome de imagem, nome de documento, etc.;
• Combinação lógica de palavras: Uma sofisticação da pesquisa anterior passa por permitir a utilização de operadores lógicos entre as palavras, tipicamente a conjunção, a disjunção e a negação com o significado da não existência do termo. Passa a ser possível pesquisar documentos que contenham «todas as palavras», «uma das palavras», «nenhuma das palavras», etc.;
• Frases: Nesta pesquisa, as palavras introduzidas são interpretadas como frases, sendo a pesquisa realizada na procura de documentos que contenham a sequência de palavras introduzidas. A forma tradicional de indicar a utilização de uma frase é através do recurso às aspas, forçando a identificação da sequência de palavras. Uma variante menos comum, mas muito eficaz, apesar de pouco intuitiva, é a descrição da frase pelo recurso a métricas de proximidade. Neste caso, para além de se indicar as palavras, é necessário descrever a distância máxima admitida, por indicação do número máximo de caracteres ou palavras possíveis entre as mesmas;
As pesquisas anteriores, apesar de intuitivas para utilizadores habituados à utilização das tecnologias de informação, provaram ser uma barreira para utilizadores pouco experientes, por ser extremamente crítico para a obtenção de sucesso na pesquisa, a correcta selecção de palavras e de operadores. Os motores de pesquisa tecnicamente mais sofisticados procuram oferecer novas interfaces enriquecidas em que é permitido ao utilizador a realização de perguntas em Linguagem Natural. Sistemas como AskJeeves (http://www.ask.com/) ou ElectricMonk (http://www.electricmonk.com/) permitem a utilização
de frases na forma de pergunta, e. g., «Qual o endereço do Museu da Cidade?». A maior parte das implementação deste tipo de interfaces continua, todavia, a basear-se no armazenamento de uma quantidade esmagadora de perguntas-tipo, permitindo simular a capacidade de interpretação das mesmas, quando na realidade o motor de pesquisa continua a utilizar somente as variações acima descritas.
Finalmente, o sistema de filtragem (o filtro de documentos) é responsável por seleccionar os documentos relevantes, quer da lista de documentos potenciais a serem devolvidos ao utilizador, quer, numa fase anterior, dos documentos identificados pelos navegadores.
Complementares aos motores de pesquisa surgiram os meta-motores de pesquisa. Procurando explorar as vantagem parciais oferecidas por cada um dos motores disponíveis surgiu, assim, uma nova classe de portais. Estes portais não possuem, actualmente, uma relevância determinante, devido à forte diminuição do espectro de oferta devido ao processo de aquisições sucessivas. Na prática, estes sistemas funcionavam como interfaces entre o utilizador e um conjunto de motores de pesquisa, recebendo a pergunta do utilizador, seleccionando o conjunto de motores que, potencialmente, podem responder, com mais acuidade ao utilizador, adaptando a pergunta aos formatos dos motores de pesquisa específicos e, finalmente, filtrando as respostas e apresentando-as ao utilizador. Entre os mais conhecidos destacam-se o Inquirus (inspector.nj.nec.com) desenvolvido pelo NEC Research Institute [12]; o Metacrawler (www.metaCrawler.com); o sherlockHound, SavvySearch, Inference Find, Fusion, ProFusion, Highway 61, Mamma, Quarterdeck WebCompass, Metabot, Symantec Internet FastFind, and WebSeeker. (Para uma visão mais extensa sobre meta-motores de pesquisa consultar [13].)
Simplesmente a título de exemplo, o MetaCrawler transferia as perguntas para o Google, Yahoo!, AltaVista, AskJeeves, About, LookSmart Overture e o Findwhat, filtrando as respostas para posterior apresentação ao utilizador. A diversidade de soluções inicial ficou seriamente comprometida pela concentração de actores disponíveis no mercado dos motores de pesquisa, tendo a maioria desaparecido.
Em Maio de 2003 o Yankee Group defendeu que, após o processo de consolidação do mercado, existem, somente, três grandes competidores o – Yahoo!, Overture e o Google, em consequência do recente desaparecimento do Inktomi, e da aquisição do Altavista e FATS Web Search pelo Overture [14]. Esta afirmação é prematura, tendo em conta que ignora por exemplo o MSN que, pela sua poderosa capacidade de pesquisa, deve ser incluído entre os quatro maiores. O argumento, de que o MSN não possui tecnologia de pesquisa própria é, unicamente, mais um factor indicativo de que um novo processo de consolidação, por aquisição de actores de menor dimensão, tais como o LookSmart ou o Ask Jeeves, pode estar ainda por acontecer. Todavia, o número de motores de grande
de 2003 o Yahoo! anunciou a aquisição do Overture o que reduz, ainda mais, o já de si diminuto clube de motores de pesquisa de grande dimensão.
Em Fevereiro de 2004, a comScore Media Metrix relatava que, em Dezembro de 2003, o Google era responsável por efectuar 35 por cento das pesquisas da Web, comparado com 27 por cento dos portais do Yahoo! e 15 por cento da Microsoft. O AOL e outros portais da Time Warner representavam 16 por cento das pesquisas, maioritariamente asseguradas através da utilização do Google.
Todavia, esta área está longe de se encontrar esgotada e são constantes as iniciativas para afirmarem novos portais que, apesar de estarem ainda em fase experimental, visam encontrar soluções alternativas aos tradicionais motores de pesquisa baseados em palavra-chave.
A criação de interfaces mais intuitivas, através do processamento de linguagem natural é uma área em franca evolução. Nestes sistemas, o utilizador é convidado a inserir frases livres em linguagem natural, estando o sistema encarregue de realizar a sua interpretação, traduzi-las em perguntas e fornecer as respostas que melhor se adequem.
Outra área promissora é a das pesquisas multimédia, baseadas em processamento de imagem ou catalogação prévia de conteúdos. As soluções, até agora apresentadas, estão limitadas a pesquisas em texto, o que é extremamente redutor, tendo em conta que a Web é composta por componentes multimédia onde, apesar do texto continuar a ser determinante, é simplesmente um dos componentes possíveis. Para além do texto, por exemplo, o som, as imagens ou vídeo são componentes que contêm informação relevante e que são ignorados nas pesquisas de texto. Os sistemas multimédia procuram identificar soluções que permitam ao utilizador pesquisar imagens que contenham determinados elementos gráficos, e. g., árvores, barcos, pessoas, casas. Os trabalhos em curso estão ainda numa fase inicial, todavia a possibilidade de existência de sistemas que pudessem fazer o reconhecimento automático de elementos gráficos, abriria novas possibilidades à exploração dos dados e à recuperação de informação.
Finalmente, um último exemplo são os sistemas de pesquisa baseados em perguntas, que procuram criar linguagens formais de alto nível, viabilizando, à semelhança das linguagens de interface com as bases de dados, e. g., SQL (Structural Query Language), aumentar o nível de abstracção das pesquisas. O maior obstáculo a esta abordagem é a inerente falta de estruturação da Internet que não se adequa a pesquisas semelhantes às possíveis nas bases de dados. A consolidação dos esforços de normalização da informação disponibilizada na Internet (permitindo juntar aos documentos a meta-informação) conduzirá à segunda geração da Web, viabilizando as aproximações descritas, e contribuindo para o
surgimento de novas ferramentas. Entretanto, são os sistemas baseados em palavras-chave que ocupam a primazia.