• No results found

Linguagem Natural (doravante, PLN) são áreas distintas que possuem o mesmo objeto de estudo: dados linguísticos armazenados em formato eletrônico. Embora distintas, as duas áreas são complementares e pertencem a um contexto interdisciplinar entre a Linguística e a Computação, de modo que pesquisadores desses dois campos de estudo podem trabalhar cooperativamente para atingir objetivos em comum. Com efeito, segundo Fromm (2006, p. 135), “embora [as duas áreas], à primeira vista, se configurem como ciências em campos díspares (humanas e exatas), desde o final do século XX e, especialmente a partir do século XXI, têm trabalhado juntas para o aprimoramento de ambas”. O autor menciona, ainda, algumas das principais contribuições que a Computação traz aos estudos linguísticos: obras lexicográficas podem ser elaboradas a partir de grandes coleções de texto em formato eletrônico, e, portanto, embasadas em exemplos concretos e não inventados; a própria estrutura dos dicionários recebe novos

recursos, como a navegação entre verbetes por meio de hyperlinks, aumentando a velocidade de consulta e trazendo novas possibilidades de uso; corpora também são usados no treinamento de diversos tipos de sistemas computacionais para processamento de língua, como os corretores ortográficos. Outras aplicações, segundo Halliday (2005), são a construção de sistemas de tradução automática de línguas, etiquetadores e ferramentas para extração de termos.

Portanto, a Linguística Computacional trabalha com dados linguísticos do ponto de vista de um especialista em Linguística, preocupando-se com a solução de questões linguísticas com uso de ferramentas computacionais; já o PLN pode ser entendido pelo ponto de vista de um especialista em computação, que se encarrega do desenvolvimento dessas ferramentas computacionais. Para um especialista em Linguística, um corpus é uma coleção de dados linguísticos que serve como objeto de estudo, e para um especialista em Computação, é uma amostra de dados para a construção de sistemas computacionais. Essa parceria interdisciplinar existente entre as duas áreas aparece ilustrada na Figura 5.

Figura 5: a interdisciplinaridade do trabalho com corpora.

Fonte: elaboração própria.

Este trabalho se interessa por um tipo específico de sistema de PLN: etiquetagem morfossintática automática de textos em língua inglesa em formato eletrônico. Como previamente mencionado, com base em Aluísio e Almeida (2006), a anotação é uma das etapas da construção de um corpus, e a etiquetagem morfossintática é um tipo de anotação que atribui categorias gramaticais a cada palavra de uma determinada porção de texto. Essa categorização gramatical é importante para ferramentas de corpora on-line porque,

sem ela, as possibilidades de consulta ao corpus disponibilizado seriam limitadas a pesquisas simples, como por palavras ou frases específicas (por exemplo: house ou go to the cinema), ou, no máximo, por frases contendo alguma variação de palavras (por exemplo: go to the *, onde o asterisco simboliza qualquer palavra). A etiquetagem morfossintática permite implementar no sistema de busca a possibilidade de consultas como [v*] to the [nn*], onde os parâmetros entre colchetes simbolizam qualquer verbo e qualquer substantivo, respectivamente. Portanto, o motivo de se realizar a etiquetagem morfossintática de um corpus é possibilitar consultas específicas em relação às classes gramaticais das palavras contidas na amostra.

O sistema de etiquetagem morfossintática escolhido para etiquetar o CELV foi o CLAWS, porque é capaz de etiquetar amostras de texto escrito em língua inglesa com precisão a partir de 95% (ou seja, em média, 95% das palavras do texto serão etiquetadas corretamente), tendo sido usado, também, para etiquetar o COCA. As características desse sistema serão detalhadas na seção seguinte.

2.2.1 O etiquetador CLAWS

CLAWS13 significa Constituent Likelihood Automatic Word-tagging System, e é um sistema de etiquetagem morfossintática (em inglês, part-of-speech tagging)

desenvolvido na Universidade de Lancaster pelo centro de pesquisa UCREL14 (University Centre for Computer Corpus Research on Language).

O CLAWS possui uma versão disponível na internet para uso gratuito15. Nessa versão, é possível inserir, no máximo, 100.000 palavras para etiquetagem. Portanto, caso se deseje usar a ferramenta para etiquetar um corpus de tamanho maior do que esse, é necessário dividir a amostra em partes menores do que 100.000 palavras e inserir o texto múltiplas vezes até que se complete a etiquetagem de todo o texto.

Segundo Garside (1996), a etiquetagem aplicada pelo CLAWS segue seis etapas, que podem ser resumidas da seguinte maneira:

1. O usuário insere um texto em inglês e o sistema processa o texto inserido, reconhecendo as palavras distintas (tokens); 13 14 15

13 ucrel.lancs.ac.uk/claws/ 14 ucrel.lancs.ac.uk/

2. Atribui-se uma lista de etiquetas possíveis a cada palavra do texto. As escolhas de etiquetas que podem ser atribuídas a cada palavra são retiradas de uma lista (lexicon) que contém um grande número de palavras associadas às suas respectivas classificações gramaticais;

3. Para palavras que não estejam contidas no lexicon, o sistema segue um conjunto de regras pré-estabelecidas para determinar etiquetas aplicáveis; 4. A partir da análise do cotexto ao redor de cada palavra do texto, o sistema

ajusta as listas de etiquetas possíveis atribuídas nas etapas 2 e 3, por meio da comparação com uma biblioteca de padrões lexicogramaticais previamente construída;

5. Com base em dados estatísticos, o sistema calcula a probabilidade de cada combinação de etiquetas em uma dada sequência de palavras, e seleciona a combinação mais provável;

6. Cada palavra contida no texto inicialmente inserido recebe uma etiqueta gramatical escolhida pelo sistema, e o texto é retornado ao usuário.

Cada uma dessas etapas envolve processos computacionais, cálculos estatísticos e algoritmos cuja descrição detalhada foge do escopo deste trabalho. Resumidamente, o sistema é executado a partir da etapa 1, com a inserção de dados linguísticos pelo usuário. Nas etapas 2 e 3, o sistema considera as palavras do texto isoladamente, listando as etiquetas possíveis para cada palavra. De acordo com Garside (1996), nesse momento do processo a etiquetagem está ambígua, pois há mais de uma etiqueta atribuída a cada palavra. O objetivo final do processo é escolher uma única etiqueta para cada palavra, o que é feito nas etapas 4 e 5 por meio de um procedimento de desambiguação, no qual o sistema considera o cotexto ao redor de cada palavra para decidir a combinação de etiquetas mais provável. As etiquetas mais prováveis são aceitas como corretas e retornadas ao usuário, associadas a cada palavra do texto inicialmente inserido. O autor explica que esse processo tem uma precisão de, aproximadamente, 95%, o que varia de acordo com o tipo de texto inserido.