Com o aparecimento da internet e novos media, foi inevitável a sua evolução rápida e inovadora. Como tal, foram aparecendo diversos dispositivos e serviços que foram sendo disponibilizados para a utilização do Ser humano. Entre estes elementos, surgiram serviços designados como motores de pesquisa. Tal ocorreu com o intuito de prestar um serviço ao consumidor, sendo esse, a procura de qualquer tipo de informação, apresentando-a de forma organizada, rápida e eficiente. A primeira ferramenta utilizada para pesquisa online, foi criada em 1990 por Alan Emtage e designada de 'Archie' (s/a 2019).
Posteriormente, muitos foram os motores de pesquisa criados, onde um dos motores de pesquisa mais utilizado globalmente nos dias de hoje, é o Google. Este realiza uma procura exaustiva de todos os documentos existentes na internet, acabando por agrupar os que contenham as palavras chave solicitadas pelo utilizador, apresentando os resultados dessa pesquisa de forma aleatória, no entanto, respeitando o ranking38 existente de acessos aos sites (Silva 2016).
No entanto, o que é que se designa por Motores de pesquisa?
Motores de pesquisa, também designados por indexing services, consistem num serviço de auxílio para um dado indivíduo na procura de informação (Dominich 2008). Este tipo de serviço funciona a partir da criação de um algoritmo39, que executa as tarefas necessárias para chegar ao resultado, para o qual, o utilizador pretende utilizar este serviço (s/a 2018).
Com o aumento acentuado da partilha de informação online e a sua procura, foi elaborada, segundo Amador (2009), uma classificação para os motores de pesquisa. Esta classificação, foi divida em duas grandes secções. A primeira consiste na secção de apresentação de atributos dos documentos, onde se encontram englobados os sistemas responsáveis pela apresentação ordenada e listada de documentos por
38 Processo de posicionamento
de itens, que consiste na criação de uma lista ordenada de acordo com determinados critérios ou parâmetros. Criando assim uma hierarquia (Priberam 2013)
39 Consiste num conjunto
de regras que uma máquina segue para atingir um objetivo específico. Este termo foi utilizado pela primeira vez no ano de 1926 (Merriam-Webster 2020).
atributos, sendo estes relacionados com o documento (fonte, data, tamanho, popularidade) ou com o próprio utilizador (termos de pesquisa pré-definidos ou tópicos). Por último, é apresentada, a seção de apresentação de semelhanças dos documentos, onde se cruzam sistemas que, a partir dos atributos referidos acima, detetam semelhanças entre documentos, podendo apresentá-los posteriormente de forma agrupada ou gráfica. Este acontecimento pode ter variação entre dois tipos de agrupação, sendo ele através de clustering40, da utilização de um algoritmo, ou manualmente, necessitando nesta última da presença humana (Amador 2009).
Tal como demonstrado na figura 13, aqui são apresentados dois tipos de motores de pesquisa, referentes à apresentação de atributos dos documentos, designados por motores de pesquisa convencionais e motores de pesquisa meta-search.
Começando pelo tipo de motor de pesquisa convencional (fig. 14), este pode ser considerado como um tipo de serviço, que permite ao utilizador, solicitar um género de conteúdo através da utilização de query41, onde estas serão analisadas e associadas a documentos e bases de dados disponíveis na internet (Amador 2009). Através desta análise, o servidor irá disponibilizar ao utilizador uma página online composta por uma listagem, que corresponderá aos resultados obtidos de acordo com as query (Silva 2016).
Esta listagem é produzida antecipadamente através de um software designado Web Crawler, responsável por remexer toda a web na procura de eventos acerca de um determinado assunto numa página online (s/a 2018).
Consecutivamente, a informação retida nos termos de pesquisa e feedbacks anteriores, já indexados e analisados, é tratada e transmitida da crawl control para a web crawler, tendo como objetivo que esta faça uma procura de novos e diferentes locais online.
Figura 13 | Diagrama de classificação referente aos motores de pesquisa (Adaptado de Amador 2009, p. 5).
40 Também denominado como
análise de agrupamento de dados. Consiste num modo de data mining (prospeção de dados), referente à capacidade de vários servidores ou instâncias de se conectarem a um único banco de dados (Techopedia 2020).
41 Termos de pesquisa
indicados pelo utilizador, tais como palavras-chave ou frases (Amador, 2009).
Figura 14 | Esquematização do processo de funcionamento do motor de pesquisa, segundo Chaffey et al. (Adaptado de Chaffey et al. 2006, p.378).
Antes de qualquer página ser indexada e classificada, a partir dos
componentes indexer42 e collection analyser43, essa mantém-se numa base de dados designada repository. (Amador 2009)
Cada secção presente na página de resultados, será apresentada ordenadamente, respeitando um ranking organizado a partir da análise de critérios e classificações realizadas através do query engine44 (Amador 2009). No entanto, estes far-se-ão acompanhar, cada resultado, por um sumário como elemento complementar para fornecer ao utilizador, mais informações acerca do conteúdo presente nessa página. A este tipo de resultado dado, dá-se o nome de search engime results page (SERP) (Chaffey et al. 2006).
“Note-se que as bases de dados destes motores de busca são limitadas, apenas contêm informação relativa a uma amostra de toda a Web.” (Amador 2009, p.7)
Ao contrário dos motores de busca convencionais, anteriormente falados, os motores de pesquisa meta-search, são sistemas que tem a particularidade de poderem efetuar pesquisas em diversos motores de pesquisa (fig. 15). Reunindo toda essa informação e compilá-la numa única lista de resultados, temos como exemplo deste tipo de motores de pesquisa, o TRIVAGO (fig. 16), onde temos acesso aos preços, disponibilidades, etc. reunidos de diversas fontes (Gouveia s/d). 42 Na programação, um
indexador, permite que instâncias de uma classe ou estruturas especificas sejam indexadas como matrizes (Chen 2019).
43 Processo de análise dos
resultados recolhidos e mediados de informações sobre variáveis em um sistema estabelecido.
44 Componente de software
posicionado dentro da base de dados, que é responsável por implementar as funcionalidades de consulta, processamento e apresentação de resultados de acordo com a query inserida pelo utilizador (Khosrow- Pour 2005).
Figura 15 | Pesquisa convencional vs meta-search (Adaptado de Amador 2009, p.7).
“um motor de busca Meta-Searcher consiste num motor que se interpõe entre vários motores convencionais e o utilizador” (Amador 2009, p.7)
Segundo Amador (2009), os motores meta-search, ao longo da pesquisa, irão analisar os diversos sumários e descrições restituídos pelos motores de pesquisa convencionais, não existindo assim necessidade de realizar uma análise direta ao próprio documento online.
No entanto a arquitetura típica de um tipo de motor de pesquisa deste género, segundo Meng et al. (2002), é composta por 6 módulos (fig. 17 pág. 94), onde se dá início na ligação entre o utilizador e a user interface (1), sendo este responsável pela conversão dos termos indicados pelo utilizador e apresentação desse mesmo resultado.
Seguidamente é apresentado o módulo database selector (2), onde este é responsável pela identificação das fontes que forneçam os melhores resultados de acordo com a query especificada pelo utilizador. Document selector (3) é o terceiro módulo nesta arquitetura, este pretende, tal como o módulo anterior, descartar documentos que se tornem imediatamente, à partida, irrelevantes para a pesquisa.
Query dispatcher (4), tem como objetivo traduzir e alterar a query definida pelo utilizador, de acordo com cada tipo de query necessária para cada diferente motor de pesquisa a utilizar. Contudo, este módulo torna-se essencial para, simultaneamente, poder recolher dados relativos ao que é pretendido pelo utilizador, mas de forma a reduzir o mais possível o seu tempo de espera.
Figura 16 | Plataforma TRIVAGO (Autora 2019).
A este módulo encontra-se ligado o Search Engine (5), onde este é a representação do motor de pesquisa convencional, pelo qual se irá ter acesso aos documentos indexados nas mais diversas bases de dados existentes na internet.
Por último, obtemos o Result Merger (6) onde, após todo o percurso até chegar ao resultado, este é apresentado em forma de lista e analisado de forma a prevenir possíveis resultados duplicados e organizá-los de acordo com a aproximação/semelhança à query especificada anteriormente. Por fim, a lista de resultados é apresentada ao utilizador.
Motores de Meta-Search, segundo Amador (2009), são diferenciados dos motores de pesquisa convencional, devido a algumas das suas vantagens, onde se destacam:
1. O utilizador interage apenas com uma interface;
2. Sabendo à partida que um documento poderá estar apenas indexado na base de dados referente a um motor de pesquisa, o meta-search dá a possibilidade, ao utilizador, de aceder à combinação de diversos resultados de diferentes motores de pesquisa. Assim “aumentando assim a 'cobertura' da Web e dos resultados e, consequentemente, aumentando também a eficácia das pesquisas” (Amador 2009, p.9);
Figura 17 | Arquitetura dos diversos componentes de meta-search (Adaptado de Meng et al. 2002, p. 55).
3. Realização de um ranking e merging dos resultados, evitando duplicação de ficheiros e organizando-os de acordo com a query do utilizador; 4. Escolha dinâmica, orientada e mais adequada dos motores de pesquisa
a utilizar de acordo com o que se pretende obter dessa pesquisa.
Para a possibilidade de agrupar todas as informações, recolhidas por esta interface, em tópicos, áreas, etc., de forma a simplificar a procura de informação por parte do utilizador, é necessária a utilização de algoritmos de clustering.
A partir da utilização do algoritmo,
“os termos derivados de um mesmo radical serão contabilizados como um único termo que, na fase seguinte de tokenização, corresponderá a um único identificador numérico.” (Amador 2009, p.11)
Com este agrupamento, existe a possibilidade de diminuir a quantidade de resultados apresentados, aumentando consecutivamente a eficácia da pesquisa.
No entanto, segundo Amador (2009), clustering é considerado uma forma de aprendizagem não-supervisionada, onde os grupos de informação só se conhecem através dos seus dados de entrada. Com isto, pode-se afirmar que web clustering, é direcionado para diversas páginas da internet, responsável pela compreensão por parte do utilizar, sobre o agrupamento dos documentos numa dada lista de tópicos.
“Um bom algoritmo de clustering tenta minimizar as semelhanças entre elementos de clusters diferentes, ao mesmo tempo que tenta maximizar as semelhanças entre elementos do mesmo cluster.” (Amador 2009, p.14)
Como presente na figura 18, os algoritmos são divididos em duas classes. A hard clustering, onde se considera que cada componente é atribuído a somente um cluster. E a soft clustering, onde nesta última classe, o componente pode ser atribuído a mais do que um cluster, possibilitando assim a existência de grupos de dados sobrepostos. Contudo, quando se fala na complexidade de algoritmos de clustering, pode-se referir a estes como incrementais, sendo que aqui é apenas aplicada a existência de uma revisão sobre os componentes, decidindo de imediato a que cluster este pertence. No entanto quando se referem a algoritmos mais complexos, pode-se aplicar mais do que uma única revisão sobre esse componente, possibilitando analisar e verificar se a identificação de cluster foi bem efetuada (Amador 2009).
A partir destas revisões e divisões por cluster, Amador (2009) descreve a importância das hierarquias que podem existir entre estes. Para este autor, o clustering pode dividir-se em dois tipos, os hierárquicos, capazes de “definir relações de hierarquia entre os vários grupos” (2009, p.15), podendo por exemplo, existir um grupo de arte e dentro desse grupo existir o grupo de pintura. Enquanto que a existência dos não hierárquicos, último tipo de clustering, corresponde aos grupos definidos que se mantém todos com a mesma importância e nível, não existindo qualquer tipo de hierarquia entre si.
Figura 18 | Classificação de Algoritmos de Clustering (Adaptado de Amador 2009, p.14).
5.2.1. SÍNTESE: A INTERNET E AS PESQUISAS ONLINE
A informação recolhida e apresentada neste capítulo foi essencial para a compreensão de questões fundamentais para a realização do serviço a desenvolver nesta dissertação. Conhecimentos como, pesquisas online, mais especificamente sobre os diferentes tipos de motores de pesquisa que existem e a forma como estes são programados e criados para efetuarem pesquisas de acordo com as preferências dos seus utilizadores, foram dados que permitiram compreender quais os caminhos mais relevantes, para a elaboração de um serviço de pesquisa mais vocacionado, tal como idealizado anteriormente. Todos estes fundamentos proporcionaram uma construção mais rigorosa e fiel à idealização final e real que este serviço possa ter, quando este for implementado.