• No results found

4. ANALYSIS AND FINDINGS

8.1. INTERVIEW GUIDE

A proposta de estudo aplicando o Zstation tem enfoque sobre os problemas que são ocasionados pelo fenômeno da ambiguidade. Tal estudo é caracterizado pela preocupação de Bräscher (2002), visto que, atualmente, existe uma gama de textos completos em formato digital disponíveis na internet e as ferramentas de busca, pautadas na extração de palavras, ainda têm-se mostrado ineficientes na recuperação de informações relevantes.

Segundo Bräscher (2002), atualmente os estudos sobre tratamento e recuperação da informação baseiam-se na premissa de que as ferramentas de busca precisam considerar o conhecimento sobre o significado das expressões que são tratadas e das relações que se estabelecem entre elas, da mesma forma que devem ser capazes de tratar determinados fenômenos linguísticos, como a ambiguidade.

De acordo com Bräscher (2002), entende-se “ambiguidade como uma expressão da língua (palavra ou frase) que possui vários significados distintos, podendo, consequentemente, ser compreendida de diferentes maneiras por um receptor”. A ambiguidade pode dificultar o processo de busca, uma vez que o sistema pode recuperar documentos sem relação com o que foi solicitado. Isso se reflete em um grande esforço e no tempo que será exigido do usuário.

Nesse sentido, busca-se um aperfeiçoamento dos sistemas para que reconheçam e solucionem os fenômenos de ambiguidade, processo que exige diferentes níveis de conhecimentos linguísticos e extralinguísticos (BRÄSCHER, 2002). De acordo com Bräscher (2002), a ambiguidade não é um fenômeno fácil de ser resolvido por sistemas. Para que estes reconheçam a ambiguidade é necessária a formalização da informação contextual, mas nem todo tipo de informação contextual pode ser formalizado e, portanto, nem todo tipo de ambiguidade pode ser solucionado pelos sistemas.

Segundo Bräscher (2002), as ambiguidades podem ser classificadas nos seguintes tipos, de acordo com a classificação de Fuchs:

Ambiguidade morfológica: ocasionada pela policategorização, ou seja, quando uma palavra pertence a mais de uma categoria gramatical, podendo ser um substantivo ou adjetivo ou verbo, por exemplo;

Ambiguidade lexical: ocorre quando há mais de uma interpretação possível do significado de uma unidade lexical, que pode ser provocada por homografia ou polissemia;

Ambiguidade sintática: ocorre na estruturação da frase em constituintes hierarquizados, quando se definem as ligações que se estabelecem entre os sintagmas. Por exemplo: “Eu li a notícia sobre a greve na universidade”, que pode significar tanto que “eu li

a notícia e eu estava na universidade” ou que “a greve ocorre na universidade”25;

Ambiguidade predicativa: ocorre na interpretação das relações temáticas que articulam predicado, argumentos e participantes. Por exemplo: “A crítica deste autor”, “autor” podendo significar tanto o objeto da crítica como o agente da crítica;

Ambiguidade semântica: ocorre quando há mais de uma interpretação possível para o relacionamento dos termos na frase. Por exemplo: “Ela não chora mais porque ele partiu”, que pode significar que “ela chorava porque ele havia partido” ou que “ela parou de chorar

uma vez que ele já foi embora”;

Ambiguidade pragmática: diz respeito ao cálculo dos valores enunciativos, à reconstrução desses valores, que estão ligados à situação do falante no momento da enunciação. Por exemplo: “Paulo vai à escola”, em que não se sabe se ele é estudante ou se ele está indo à escola neste momento.

Existem vários tipos de ambiguidades e cada uma delas exige um nível de complexidade. Bräscher (2002) propôs a desambiguação mediante o tratamento sintático- semântico, utilizando gráficos conceituais como estrutura de representação do conhecimento. A utilização de gráficos conceituais se baseia na teoria dos gráficos conceituais de Sowa. Segundo essa teoria, os gráficos conceituais (GCs) constituem uma linguagem de representação do conhecimento e são formados por gráficos que possuem dois tipos de nós: os conceitos, “representados por retângulos ou por colchetes [CONCEITO], correspondem a conteúdos de pensamento; representam entidades, ações ou estados que possam ser descritos em termos de linguagem”; e as relações, “representadas por círculos com uma flecha de entrada e outra de saída ou entre parênteses => (RELAÇÃO) =>, simbolizam as ligações existentes entre os conceitos e demonstram os papéis que cada entidade desenrola” (BRÄSCHER, 2002).

Bräscher (2002) propõe a aplicação de conhecimentos sintático-semânticos organizados com base na gramática de valências de Borba para solução de ambiguidades em textos de língua portuguesa.

De acordo com Bräscher (2002), o sistema Zstation constitui-se num sistema de tratamento automático da linguagem natural que realiza a análise automática da sentença mediante a coleta de toda informação relacionada tanto à sentença quanto às propriedades semânticas e morfológicas das palavras, possíveis grupos de palavras e frases e conexões possíveis entre eles, até que o conhecimento coletado permita propor uma ou várias interpretações.

A base de conhecimento desse sistema está constituída basicamente por: conhecimento

sintático, que são as características morfossintáticas dos elementos que representam, na

estrutura superficial, uma relação predicado/argumento; função sintática desses elementos e como eles organizam-se sintaticamente; e conhecimento semântico, que são as características dos conceitos (traços semânticos), relações semânticas (hiperonímia, sinonímia, por exemplo) e relações temáticas (agente, ação, objeto, entre outras) (BRÄSCHER, 2002).

Módulo I (Geração morfossintática): identifica a qual modelo morfológico um lema morfológico está associado e, por meio de uma gramática de geração associada ao modelo, gera as diversas formas possíveis do lema;

Módulo II (Análise morfossintática): identifica o lema morfológico para cada forma no texto e sua categoria morfossintática (substantivo, verbo, pronome, adjetivo, etc.);

Módulo III (Análise sintagmática): Extrai todos os tipos de grupos necessários para a análise sintática da sentença ou de unidades de texto maiores;

Módulo IV (Análise semântica): identifica todos os conceitos associados a um lema morfológico para obter as informações semânticas necessárias. Em um segundo momento, o módulo determina todas as restrições semânticas associadas ao conceito e os parâmetros semânticos são definidos sob a forma de traços individuais e de classes e, assim, estruturados em redes semânticas.

Para realizar esse processamento, o sistema inclui ferramentas linguísticas, como um dicionário automático, constituído de um conjunto de lemas e de dados linguísticos referentes a eles; uma gramática morfológica, que inclui o modelo morfológico, a categoria gramatical, as variáveis (pessoa e tempo para verbos e gênero e número para as demais categorias às quais se aplicam) e a regra morfológica a ser aplicada em cada entrada; a gramática de argumentos, que especifica como se efetuam as ligações entre os constituintes relacionados a determinada função sintática; e a ontologia, que especifica a relação temática definida num argumento (BRÄSCHER, 2002).

O conjunto de dados registrados no dicionário, na gramática morfológica, na gramática de argumentos e na ontologia é utilizado para efetuar-se o tratamento sintático- semântico de enunciados do corpus de pesquisa, verificando-se a ocorrência de ambiguidades e se estas foram solucionadas ou não pelo sistema Zstation. Sistemas de recuperação que adotam extração de palavras por meio de métodos estatísticos e aqueles que aplicam análise sintática para extração de sintagmas exigem menor esforço do que os sistemas que incorporam tratamento semântico. Apesar disso, não são capazes de solucionar problemas linguísticos como a ambiguidade e a sinonímia, tratadas nos sistemas tradicionais que utilizam linguagem de indexação (BRÄSCHER, 2002).

A proposta de Bräscher (2002) caracteriza-se como um fator primordial no processo de indexação automática, ainda mais quando nos referimos ao vasto ambiente Web, que, em comparação aos ambientes especializados, está mais suscetível à diversidade de conhecimentos e, consequentemente, diante de contextos em que podem ocorrer comumente

fenômenos de ambiguidade. Sistemas automáticos só são capazes de identificar e solucionar ambiguidades quando existem ferramentas linguísticas especialmente desenvolvidas com essa proposta.

Nesse sentido, novas alternativas estão sendo investigadas, como, por exemplo, a indexação por sintagmas nominais, desenvolvida por Kuramoto (2002, 2006).