• No results found

8.5 I randsonen

8.5.1 Hiphopens moralske ideal

A normalização morfológica do texto é uma técnica que pode melhorar os resultados obtidos nos índices de similaridade entre as strings comparadas. Consiste em reduzir palavras a seus radicais (stems) por meio de um processo conhecido como conflação, que ocorre com a junção ou a combinação das formas morfologicamente variantes de um termo. (FRAKES e BAEZA-YATES, 1992)

44

A técnica de stemming consiste em reduzir as variantes morfológicas das palavras para a sua raiz, mapeando formas singulares, plural e conjugações verbais para uma única raiz, pois assume que palavras que contenham a mesma raiz estão semanticamente relacionadas e têm o mesmo significado para o leitor. (MOENS, 2000, p. 81)

Por exemplo, as palavras “estudo”, “estudei” e “estudando” (algumas derivações

do verbo “estudar”), poderiam, com a remoção de suas flexões, ser reduzidas ao stem

“estud”. Mesmo esse radical não tendo nenhum sentido como palavra na língua portuguesa, pois não possui relação com o mesmo radical linguístico da palavra, consegue prover informação suficiente sobre aos vocábulos que o conceberam, não perdendo precisão e ainda permitindo o seu uso no processo de busca de similaridade entre strings comparadas.

O grande diferencial desta técnica em relação às anteriormente apresentadas é que esta realiza um tratamento semântico aos termos, reduzindo o espaço de comparação, mas não excluindo os conceitos. As outras técnicas são estatísticas e, simplesmente, efetuam a remoção dos termos por elas encontrados.

Mesmo com o benefício que essa técnica proporciona, o uso de stemming não resolve o problema da perda de contexto da informação. Isso ocorre quando são produzidos stems iguais para termos com sentidos diferentes, mas de mesma escrita (conhecido na língua portuguesa como homônimos), permitindo a conflação de termos

não relacionados. Como exemplo, temos a palavra “manti nha”, que pode ser o verbo

“manter” conjugado na primeira pessoa do pretérito imperfeito do indicativo, ou o

diminutivo de “manta” (pano de lã utilizado para agasalhar recém-nascidos). No caso

apresentado, o stem produzido para os termos homônimos seria “mant”.

Esse problema pode comprometer os resultados obtidos nos índices de similaridade entre as strings comparadas, porém podem ser contornados por parte do docente no momento de elaboração da resposta padrão que é utilizada para a correção das questões. Pode-se, ainda, utilizar outras técnicas propostas Nesta dissertação, como a substituição de sequência pré-definida ou a troca de palavras semelhantes.

Outro problema quanto ao uso da técnica de stemming está relacionado à sua dependência com a língua para o qual foi escrita, pois baseia-se diretamente nas regras

45 de formação de cada palavra para detectar e remover os seus afixos (sufixos e prefixos) [HON00]. Além disso, a língua portuguesa apresenta inflexões que normalmente causam modificações no radical das palavras, prejudicando os resultados gerados pelo processo de conflação. Por esse motivo, existe a necessidade de se utilizar a técnica de stemming projetada para o processamento de palavras digitadas em português.

Dentre os algoritmos de stemming propostos para a língua portuguesa, optou-se por utilizar nesta dissertação o desenvolvido por (ORENGO e HUYCK, 2001), chamado de “Removedor de Sufixos da Língua Portuguesa” (RSLP), sendo ele a evolução da versão para o espanhol desenvolvido por (HONRADO, LEON, O´DONNEL e SINCLAIR, 2000), todos baseados na versão original para a língua inglesa (PORTER, 1980) (PORTER, 2007).

Uma descrição do funcionamento do algoritmo de stemming proposto por Orengo e Huyck (2001) é apresentada a seguir.

2.4.4.1 O algoritmo de stemming RSLP

O algoritmo de stemming RSLP (ORENGO e HUYCK, 2001) consiste em um conjunto de passos constituído por uma coleção de regras para a remoção de sufixos sobre uma palavra, reduzindo-a a um denominar comum chamado de stem (radical). Cada regra define o sufixo a ser removido ou substituído por outro e o tamanho mínimo que deve ter para poder ser eliminado.

Além de ter sido construído com regras para a língua portuguesa, conta com um pacote de exceções que evitam a remoção de sufixos de palavras cuja terminação é

similar a um sufixo (por exemplo, o sufixo de diminutivo “inha” pode ser retirado de

“cadeir inha”, mas não da palavra “linha”, mesmo ela terminando com as letras do sufixo

em questão). No caso da palavra “l inha”, existe uma regra de exceção no algoritmo de

stemming que não permite que ela seja reduzida.

Com uma sequência de oito passos de redução executados em uma ordem específica, cada passo possui uma série de regras em que cada um detém os seguintes itens:

46 a) um sufixo

b) um tamanho mínimo do stem resultante após a remoção do sufixo c) um sufixo de substituição (opcional)

d) uma lista de exceções (opcional)

As regras são declaradas de acordo com o mostrado na figura 2.8:

Figura 2.8: exemplo de declaração de regra no algoritmo stemming RSLP.

As regras de cada passo são verificadas sucessivamente, testando a presença do sufixo na palavra processada. Sendo o sufixo da regra encontrado, é verificado se a palavra não está na lista de exceções daquela regra. Caso não esteja, verifica-se se o

stem resultante após a remoção do sufixo possui o tamanho mínimo exigido pela regra.

Se possuir, o sufixo é removido e substituído pelo sufixo de substituição, caso esteja definido, finalizando a execução deste passo e passando para o próximo. As regras de cada passo seguem uma ordem determinada, de forma que o maior sufixo possível é

testado antes de um menor. Isso permite que, por exemplo, um sufixo “s”, pertencente à

regra de redução de plural, não seja incorretamente retirado de uma palavra do sufixo “as” ser verificado.

Logo a seguir, são apresentados os oito passos de redução de sufixo: