Network theories - T HEORETICAL FRAMEWORK

4. T HEORETICAL FRAMEWORK

4.2 Network theories

A Análise de Semântica Latente (Latent Semantic Analysis, LSA) (DUMAIS et al.,

1988; DEERWESTER et al.,1990) é uma técnica originalmente concebida para melhorar o

desempenho de sistemas de recuperação de informação (DUMAIS,2004). O principal problema de sistemas como buscadores na Web é a apresentação de resultados irrelevantes para o usuário, não correlacionados à intenção subjacente à cadeia de busca. Grande parte dos sistemas de busca utiliza, como base, um casamento lexical entre a cadeia de busca do usuário e as páginas indexadas (DUMAIS,2004). Uma possibilidade de geração de resultados irrelevantes, nesse caso, vem da relação muitos-para-muitos existente, nas línguas naturais, entre as palavras e os conceitos ou significados a que elas podem remeter; essa relação pode ser descrita em termos de dois fenômenos linguísticos, a sinonímia e a polissemia.

A sinonímia acontece quando várias palavras se associam ao mesmo conceito, enquanto a polissemia ocorre quando uma mesma palavra se refere a diversos conceitos. São exemplos de sinônimos casa e moradia, que são palavras que se referem basicamente à mesma ideia, e são exemplos de polissemia palavras como banco e manga, que podem cada uma se referir a diversos conceitos (no primeiro caso, por exemplo, a palavra pode se referir a um assento ou

a uma instituição financeira). Se apenas um casamento lexical simples, literal, é realizado, um usuário buscando por casa pode não encontrar um documento relevante que utiliza o termo moradia, e outro buscando por banco como instituição financeira pode encontrar referências ao objeto. O principal objetivo da LSA é detectar automaticamente relações de sinonímia e polissemia entre palavras, melhorando a qualidade dos resultados obtidos na busca.

Uma característica muito importante da LSA é que a técnica não utiliza nenhuma ferramenta ou recurso de PLN, como etiquetadores, analisadores, dicionários, WordNet’s, redes semânticas ou representações de conhecimento. Trata-se de um método puramente estatístico, não-supervisionado, que recebe como entrada apenas uma grande quantidade de textos, gera uma matriz termo-por-documento e procura estabelecer relações de semelhança úteis a tarefas de recuperação de informação ou tarefas semelhantes (DUMAIS,2004).

A LSA consiste basicamente em 4 passos (DUMAIS,2004):

1. Geração da matriz termo-por-documento (TxD): inicialmente, uma grande quantidade de textos é transformada em uma matriz, onde cada linha representa uma palavra e cada coluna representa uma unidade maior, como uma sentença, um parágrafo ou mesmo o texto todo, dependendo da aplicação desejada. O valor de cada célula é a frequência de aparição da palavra no fragmento correspondente. Note que a ordem em que as palavras aparecem no texto não é utilizada na análise.

2. Transformação da matriz termo-por-documento: ao invés de utilizar a matriz TxD pura, com os valores originais de frequência, os valores podem ser transformados, para obtenção de melhor desempenho. A transformação mais comumente utilizada é a tf-idf (frequência do termo vezes o inverso da frequência do documento).

3. Redução de dimensionalidade: o próximo passo consiste em aplicar uma Decomposição em Valores Singulares (Singular Value Decomposition, SVD) sobre a matriz TxD. Nesse passo, os k maiores valores singulares da matriz TxD são mantidos, enquanto os outros são colocados como 0. Ao final desse processo, a representação resultante é a melhor aproximação k-dimensional da matriz original, segundo o critério dos mínimos quadrados. 4. Recuperação no espaço reduzido: em seguida, as palavras e os documentos são representa- dos como vetores no mesmo espaço de dimensão reduzida. Como estão no mesmo espaço, pode-se calcular a distância palava-palavra, palavra-documento e documento-documento. Além disso, pode-se também representar as cadeias de busca do usuário no mesmo espaço, com base nas palavras que constituem a busca (pode-se calcular o centroide ponderado das palavras constituintes, por exemplo, para obter um vetor para a busca), e então obter os documentos mais próximos segundo alguma métrica de distância. A medida mais uti- lizada, segundo (DUMAIS,2004), é a distância do cosseno, por ter apresentado melhores desempenhos na prática.

3.2. Medidas Automatizadas 77

Além da aplicação originalmente pretendida na recuperação de informações, a LSA encontra utilidade em diversas outras tarefas (DUMAIS,2004).

Uma delas é a recuperação multilíngue de informações. Nesse caso, deseja-se que uma cadeia de busca em um idioma consiga encontrar documentos relevantes escritos em outro idioma. Esse é o caso extremo da divergência de vocabulário entre usuários de sistemas de busca e escritores de documentos, divergência que a LSA originalmente se propunha a resolver

(DUMAIS,2004). Para essa tarefa, são empregados córpus paralelos, onde as sentenças originais

e suas respectivas traduções encontram-se alinhadas, bem como uma noção ligeiramente diferente da matriz termo-por-documento (DUMAIS,2004).

A LSA foi aplicada ainda a tarefas relativas à modelagem da memória humana, como pontuação de redações (LANDAUER et al.,1997; FOLTZ; LAHAM; LANDAUER,1999), testes de vocabulário (LANDAUER; DUMAIS, 1997; DUMAIS, 2004), para a medição de coerência textual, entre outras. A medição de coerência textual é de particular interesse neste trabalho. Já abordamos na seção 3.2.3.1 que Kintsch foi responsável por criar métodos para representar textos por meio de proposições;Foltz, Kintsch e Landauer(1998) utilizou a LSA para medir a coerência textual automaticamente, encontrando alta correlação entre a pontuação da LSA e a de testes humanos (DUMAIS,2004). Além disso, ela foi utilizada porDunn et al. (2002) para medir a capacidade de relembrar fatos em testes de memória; nesse estudo, a LSA foi comparada a outros métodos de pontuação já estabelecidos, baseados em unidades temáticas que o sujeito conseguiu lembrar, e se mostrou altamente correlacionada a eles (DUMAIS,2004). Nesse mesmo trabalho, a LSA foi capaz de detectar problemas de memória em pacientes com déficts cognitivos, o que a torna de grande interesse para este trabalho.

A LSA já está disponível no Coh-Metrix original. As métricas relacionadas a ela encontram-se na Tabela 1, e estão reproduzidas na Tabela 5 para facilitar a leitura do texto. Como se pode notar, é medida a correlação entre sentenças e parágrafos adjacentes, e entre todas as sentenças de um parágrafo, entre outras.

Tabela 5 – Métricas de LSA do Coh-Metrix 3.0.

LSA

40 LSASS1 LSAassa LSA overlap, adjacent sentences, mean 41 LSASS1d LSAassd LSA overlap, adjacent sentences, standard

deviation

42 LSASSp LSApssa LSA overlap, all sentences in paragraph,_mean 43 LSASSpd LSApssd LSA overlap, all sentences in paragraph,

standard deviation

44 LSAPP1 LSAppa LSA overlap, adjacent paragraphs, mean 45 LSAPP1d LSAppd LSA overlap, adjacent paragraphs, standard

deviation

46 LSAGN LSAGN LSA given/new, sentences, mean

47 LSAGNd n/a LSA given/new, sentences, standard

CAPÍTULO

4 TRABALHOS RELACIONADOS

Este capítulo apresenta trabalhos que realizaram análises semelhantes às realizadas neste trabalho de mestrado, agrupados conforme o nível de análise linguística empregado.

In document Oil-capital of the North : a case study of Harstad's attractiveness as localization for petroleum related supplier industries (sider 43-48)