Kapittel 3...................................................................................................................... 39
3.3 Et forprosjekt blir til
3.3.2 Forprosjektets organisering og gjennomføring
Como j´a mencionado, o crescimento da Internet e, principalmente da WWW, gerou uma enorme quantidade de documentos que est˜ao dispon´ıveis para os usu´arios. Essa enorme massa de dados ´e uma nova fonte de pesquisa para a ´area de descobrimento de conheci- mento. Em contraste com a Recupera¸c˜ao de Informa¸c˜ao da Internet, o descobrimento de conhecimento na Internet tem como objetivo a extra¸c˜ao de conhecimento impl´ıcito contido nesses documentos.
De acordo com (Kosala and Blockeel 2000)
Web Mining ´e o uso de t´ecnicas de Minera¸c˜ao de Dados para descobrir e extrair automaticamente informa¸c˜oes a partir de documentos e servi¸cos da Web.
Portanto, Web Mining refere-se ao processo completo de se descobrir informa¸c˜ao ou co- nhecimento ´util, previamente desconhecido, a partir de dados da Web. Ele cobre, implici- tamente, o processo padr˜ao do KDD. Assim, pode-se ver Web Mining como uma extens˜ao do KDD aplicado `a dados da Web.
Dessa forma, Web Mining pode ser decomposto nas seguintes etapas:
Recupera¸c˜ao de documentos: ´e o processo de recupera¸c˜ao de dados da Web. Para isso, as t´ecnicas de Recupera¸c˜ao de Informa¸c˜ao podem ser utilizadas (ApˆendiceC). Pr´e-processamento: refere-se a qualquer transforma¸c˜ao nos dados originais. Como
exemplo disso temos a retirada de stop words2
. Outro tipo de pr´e-processamento seria a transforma¸c˜ao dos documentos para a forma de l´ogica de primeira ordem. Por exemplo, em (Craven, DiPasquo, Freitag, McCallum, Mitchell, Nigam, and Slattery 1998), algoritmos de Programa¸c˜ao L´ogica Indutiva (PLI) s˜ao utilizados para esse fim.
Generaliza¸c˜ao: nessa etapa, algoritmos de Aprendizado de M´aquina e t´ecnicas de Mi- nera¸c˜ao de Dados s˜ao aplicados.
An´alise: essa ´e a etapa na qual os resultados obtidos na etapa anterior s˜ao validados. Como a Web ´e um meio interativo, a fase de an´alise ´e muito importante.
Web Mining tamb´em pode ser visto como parte do Processo de Recupera¸c˜ao de In-
forma¸c˜ao, pois ele pode ajudar na indexa¸c˜ao, na busca e na coloca¸c˜ao (ranking) dos
2
Stop words s˜ao palavras que ocorrem com muita frequˆencia em textos como, por exemplo, artigos e
documentos. Por exemplo, clustering (t´ecnica frequentemente utilizada em Minera¸c˜ao de Dados) pode ser utilizada para indexar documentos semelhantes. Contudo, nem todos os m´etodos de indexa¸c˜ao utilizam t´ecnicas de Minera¸c˜ao de Dados, como ´e o caso de ´Indices Invertidos (no Apˆendice C s˜ao discutidos a indexa¸c˜ao por clustering e os ´Indices
Invertidos).
Web Mining pode ser dividido em trˆes sub-´areas3
:
1. Web Content Mining
2. Web Structure Mining
3. Web Usage Mining
descritas brevemente a seguir.
2.5.1
Web Content Mining
Muito do conhecimento na Web est´a dentro dos documentos, ou seja, no seu conte´udo. O processo de descoberta de informa¸c˜oes ´uteis a partir desse conte´udo ´e chamado de Web
Content Mining. Os principais usos de Web Content Mining s˜ao:
Sumariza¸c˜ao: utilizando a pouca estrutura¸c˜ao que o HTML4
oferece, ´e poss´ıvel suma- rizar o conte´udo das p´aginas da Web. Uma aplica¸c˜ao bem interessante ´e a recu- pera¸c˜ao dos pre¸cos de produtos nos sites de compras. Em (Deogun, Sever, and Raghavan 1998), ´e citado o ShopBot, que ´e um agente de Web Mining especializado em cat´alogos eletrˆonicos. Ele utiliza uma descri¸c˜ao dos dom´ınios e dos sites como conhecimento de fundo5
para comparar atributos (ex. pre¸co).
Categoriza¸c˜ao: algoritmos de Aprendizado de M´aquina podem ser aplicados ao conte´udo das p´aginas de forma a permitir que o computador classifique essas p´aginas de acordo com uma ontologia6
. Em (Slattery and Craven 1998), (Craven, DiPasquo, Freitag, McCallum, Mitchell, Nigam, and Slattery 1998) e (Craven, Slattery, and Nigam 1998), ´e mostrada a aplica¸c˜ao de alguns algoritmos de Aprendizado de M´aquina em p´aginas de universidades. O sistema aprende a classificar uma p´agina como sendo a de um estudante, de um projeto de pesquisa, de um curso, etc.
3
Os nomes dessas sub-´areas foram mantidos em inglˆes porque essa ´e a forma normalmente utilizada
pela comunidade. 4
HyperText Markup Language— ´e uma linguagem de marca¸c˜ao de textos utilizada para definir as
caracter´ısticas de apresenta¸c˜ao de documentos da Web.
5
Conhecimento pr´evio, ou anterior, sobre o dom´ınio estudado. 6
Descoberta de conhecimento: a enorme cole¸c˜ao de textos dispon´ıveis na Web mostra- se uma valiosa massa de dados para a descoberta de novos conhecimentos. Em (Loh, Wives, and Oliveira 2000) ´e mostrado um experimento de extra¸c˜ao de conhecimento relacionado ao que a imprensa estava dizendo sobre o prefeito de uma grande cidade do Brasil. Alguns relacionamentos com tr´afico de drogas, empr´estimos e educa¸c˜ao foram encontrados e analisados.
Pode-se notar que o uso de Web Content Mining pode ajudar no Processo de Recupera¸c˜ao de Informa¸c˜ao. Sumariza¸c˜ao pode ser utilizada para extrair informa¸c˜oes relevantes dos documentos para indexa¸c˜ao enquanto que categoriza¸c˜ao pode ser utilizada nos sites de cat´alogos (ApˆendiceC).
2.5.2
Web Structure Mining
Gra¸cas a interconex˜ao entre documentos, a WWW pode revelar mais informa¸c˜oes do que simplesmente as relacionadas ao conte´udo dos documentos. Por exemplo, muitos links7
apontando para um documento indicam sua popularidade, enquanto muitos links saindo de um documento indicam uma riqueza de t´opicos cobertos pelo mesmo. O processo que tenta descobrir o modelo que est´a por tr´as dessa estrutura de links ´e chamado de Web
Structure Mining.
A id´eia ´e que os links codificam uma consider´avel quantidade do julgamento humano. Mais especificamente, a cria¸c˜ao de um link numa p´agina indica que seu autor conferiu autoridade para a p´agina sendo referenciada por esse link . P´aginas em que chegam muitos
links s˜ao chamadas de autoridades. Hubs, ao contr´ario, s˜ao as p´aginas que centralizam
essas autoridades. Em (Slattery and Mitchell 2000) s˜ao descritos algoritmos que encontram
hubs e autoridades.
Percebe-se que hubs e autoridades mantˆem uma rela¸c˜ao de refor¸co m´utuo: bons hubs apontam para boas autoridades, e uma boa autoridade ´e aquela que ´e apontada por um bom hub. Na Figura 2.3´e ilustrada essa rela¸c˜ao.
Os poss´ıveis usos para Web Structure Mining s˜ao:
Coloca¸c˜ao (ranking ): Web Structure Mining pode ajudar no Processo de Recupera¸c˜ao de Informa¸c˜ao, mais precisamente na fase de coloca¸c˜ao. Verificando que um docu- mento ´e uma autoridade, ele ´e favorecido na coloca¸c˜ao.
7
Hub
Autoridade
Autoridade
Autoridade
Autoridade
Figura 2.3: Hubs e Autoridades
Fluxo de informa¸c˜ao: descobrindo a estrutura que os links formam, pode-se estudar como o fluxo de informa¸c˜oes afeta o projeto de um site, fornecendo dicas de como melhor´a-lo.
2.5.3
Web Usage Mining
Cada servidor Web guarda, localmente, uma cole¸c˜ao de registros bem estruturados: os logs de acesso. Os servidores Web guardam essas informa¸c˜oes sobre a intera¸c˜ao dos usu´arios cada vez que ´e feito um acesso ao site. Web Usage Mining utiliza-se desses dados para descobrir informa¸c˜oes sobre os usu´arios da Web, tais como seus comportamentos e seus interesses.
Como a informa¸c˜ao dos logs ´e bem estruturada, pode-se aplicar t´ecnicas t´ıpicas de Mi- nera¸c˜ao de Dados sobre esses dados. Al´em disso, pode-se fazer uso do conhecimento do dom´ınio, que pode ser o assunto que o site trata e/ou a sua topologia.
Os poss´ıveis usos para Web Usage Mining s˜ao:
Personaliza¸c˜ao: a descoberta do perfil do usu´ario pode ser ´util na personaliza¸c˜ao da interface, ou do conte´udo, de forma a ajudar o site a atingir seus objetivos.
Marketing: saber quem frequenta um determinado site pode ser de grande valia para
marketing. Fu (Fu, Sandhu, and Shih 1999a) d´a um exemplo: se alguns usu´arios passam muito tempo olhando p´aginas de “mob´ılias para bebˆes” e “brinquedos para bebˆes” ent˜ao ´e prov´avel que eles sejam futuros pais. Isso pode sugerir rearranjos no
Proxies: descobrindo-se o padr˜ao de acesso dos usu´arios, pode-se programar um servidor
proxy8
para efetuar o download das pr´oximas p´aginas que o usu´ario provavelmente ir´a visitar, enquanto ele lˆe a primeira p´agina. Um algoritmo que descobre esses padr˜oes ´e descrito em (Aumann, Etzioni, Feldman, Perkwitz, and Shmiel 1998). Eficiˆencia: descobrir quais p´aginas n˜ao est˜ao sendo acessadas pode sugerir futuros rear-
ranjos no site. Mais que isso, pode-se descobrir qual o padr˜ao de acesso dos usu´arios que compram produtos no site e quais s˜ao apenas visitantes. Com isso, pode-se reorganizar o site de forma a transformar os visitantes em compradores potenciais. ´
E justamente isso que Spiliopoulos (Spiliopoulou, Pohle, and Faulstich 1999) sugere. Recupera¸c˜ao de Informa¸c˜ao: uma outra fonte de dados para Web Usage Mining s˜ao os
logs das m´aquinas de busca (ApˆendiceC), ou seja, quais as palavras que foram bus- cadas e quais os sites que o usu´ario achou relevantes para aquelas palavras. Beefer- man (Beeferman and Berger 1999) sugere um algoritmo que melhora a eficiˆencia das m´aquinas de busca baseado em seus logs.