• No results found

O termo clickstream, também conhecido como clickpaths, denota o caminho ou rota que um visitante realiza através de um ou mais sites na Web [4]. O trajeto reflete uma série de escolhas feitas dentro de um site. Esse caminho é uma lista de todas as páginas vistas por um visitante; elas são apresentadas na ordem em que foram vistas. O caminho pode ser também definido como uma sucessão de cliques de mouse que cada visitante faz.

Os dados de clickstream é um produto natural da navegação na Web, que é gerado automaticamente sem ser necessária a interação com o usuário. Além disso, essa interação poderia alterar seu comportamento de navegação.

O motivo primordial para a coleta de dados de clickstream é a monitoração da janela do navegador do usuário e o registro de quando e o que está em foco nessa janela pela identificação de qual URL está atualmente sendo requisitada.

Como estatísticas agregadas, os dados de clickstream dizem, em média, quanto tempo as pessoas gastam no site, quão frequentemente elas retornam e quais páginas são as mais

freqüentemente visitadas. Para lojas on-line que pretendem atingir visitantes de suas páginas, essa informação de clickstream é muito mais rica que as informações convencionais por apresentar características demográficas e de perfil do usuário.

Além disso, dados de caminho percorrido por um usuário na Web podem conter informações sobre seu objetivo, conhecimento e interesses. Segundo essas informações, pela perspectiva de marketing, há grande vantagem em minerar esses dados para melhorar o entendimento e predição do comportamento de escolha do usuário, até mesmo em predizer uma compra.

Há também um amplo interesse da parte do marketing na grande interatividade, presente na Web, entre sites e usuários. A interatividade se restringe à monitoração e resposta das ações de cada consumidor. Com os dados de clickstream, é possível construir sistemas de propaganda de forma dinâmica, enquanto o usuário interage com o sistema.

Isso é possível, pois, segundo Montgomery [4], as escolhas de navegação do usuário em um site envolvem o número de páginas vistas, o tempo gasto na visualização de uma página ou o site por completo, a decisão de ficar ou sair do site em uma dada página e a escolha de qual link seguir e/ou quais páginas ver. Essas decisões podem refletir na atratividade do site Web e podem também influenciar a habilidade do site em aumentar o rendimento através de propagandas com banners ou outros veículos relacionados (pop-ups, pop-unders, etc).

Muitos visitantes não têm em mente um objetivo de compra quando acessam um site. Para ajudar esse tipo de usuário, dados de clickstream podem ser usados a fim de inferir individualmente o seu objetivo. Tal uso atribuído a esses dados é de grande importância para esse tipo de usuário.

Essa inferência de objetivos é realizada por sistemas de recomendação [4]. A descoberta de objetivos fornece ao usuário orientação sobre quais produtos selecionar através do uso de uma estrutura de preferências do usuário individualmente e das preferências e escolhas de outros visitantes do site. Conseqüentemente, é possível definir o aspecto da navegação que é mais próxima de uma compra on-line. A DoubleClick pode ser capaz de usar o histórico de visita do site de um indivíduo a fim de predizer com precisão o gênero do usuário e o que é útil para selecionar um material de propaganda direcionado a futuras visitas a esses sites Web.

Esse novo tipo de dados de clickstream é vasto em tamanho e potencialmente muito complexo. Métodos estatísticos e de mineração de dados são necessários para tratar esse novo tipo de dados.

Alguns termos para descrever a navegação na Web são essenciais para análise de clickstream e para sua compreensão: requisição de página, visão de página e sessão [39]. Uma requisição de página refere-se a um usuário que está requisitando uma URL através de seu programa de navegação. Requisição de página é uma marcação de requisição no arquivo de log do servidor. Um usuário pode pressionar o botão de voltar em sua janela do navegador para rever uma página. Essa gerará uma nova visão de página, mas não uma nova requisição de página. Dessa forma, o programa de navegação retornará uma cópia da página previamente armazenada. Nesse caso, uma sessão é definida como um período de navegação Web assistida pelo usuário ou uma seqüência de visões de página. Se um usuário não tem visto qualquer página por 20 minutos, assume-se que a sessão tenha terminado.

Dados de clickstream sem refinamento são coletados das seguintes maneiras: arquivos de log de servidores, dados de painel e provedor de serviço de Internet.

A mais popular é através de arquivos de log de servidores dos sites que estão sendo visitados. Eles identificam informações como endereço IP, última URL e tipo do navegador, informações que são registradas nos logs do servidor [40]. Esses arquivos são mantidos em benefício de um proprietário de site Web e contêm todas as requisições e informações transferidas entre o computador do usuário e o servidor durante uma visita a um site Web. Isso ocorre porque os arquivos de log de servidor são capazes de gravar informação no identificador do cookie do visitante, o que possibilita identificar usuários individualmente e suas respectivas visitas de retorno.

Os dados de painel são fornecidos por ferramentas como ComScore, NetRatings e MediaMetrix. Eles são relatórios de acesso de usuários a determinado serviço Web. Essas ferramentas capturam as URL’s de todas as páginas requisitadas durante a navegação na Web e transmitem informações do computador do usuário para esses fornecedores de dados de painel.

Os dados de clickstream podem também ser coletados por um Provedor de Serviço de Internet (ISP). O provedor de Internet nem sempre encaminha a requisição; ele pode satisfazer a requisição usando um cache armazenado localmente, como um meio de diminuir o tráfego na Internet. Como o ISP processa todas essas requisições, ele pode também registrá-las para capturar o clickstream do usuário. Se a requisição é passada para o servidor destino, esse servidor pode também registrar o computador que gerou a requisição. Isso fornece dois

repositórios de dados de clickstream, mas a gerada pelo provedor é uma fonte mais completa de dados.

Dados de painel de Internet não são tão ricos quanto os arquivos de log de servidores, que fornecem um registro de todas as informações requisitadas do servidor para uma dada visão de página. Dados de painel de Internet somente registram a URL do site visitado, o que torna difícil reconstruir o que o usuário atualmente viu quando estava visitando a página Web ou dificulta o entendimento da interação que ocorre entre as páginas de um site.

As fontes de dados de painel ou de ISP podem também ser capazes de associar informação demográfica detalhada do local da máquina com cada indivíduo. Mas, por outro lado, faltam algumas informações específicas sobre a interação entre usuário e o servidor, as quais são coletadas por log de servidores Web. Ambas as fontes tipicamente incluem informação do endereço IP do visitante, o tipo de navegador usado, um timestamp, e a URL visitada anteriormente. Embora muita informação de potencial interesse não é capturada por essas origens, dados de clickstream fornecem um nível razoável de detalhamento nas informações coletadas.

Há uma abundância de informação a ser analisada. Também é possível serem examinados os clickstreams do visitante em combinação com qualquer informação fornecida por um programa estatístico, como duração de visitas, termos de busca, ISP’s, países dos visitantes, navegadores, etc. O processo apresenta um relatório sobre o público que acessa um determinado serviço.

Esses programas de análise geralmente possuem filtros e rotinas para classificar o perfil ou definir um comportamento de cada visitante, usando conceitos de inteligência artificial e as informações coletadas pelos métodos anteriormente descritos.