• No results found

5. Analysis

5.5 Profitability analysis woodchips

5.5.2 Assumptions woodchip boiler

Um dos componentes fundamentais nas aplicações de tratamento de lingua- gem natural é o léxico. O léxico é um vocabulário, uma estrutura de dados que contém os ítens lexicais, isto é, as palavras (como projeto, risco) ou grupos de pa- lavras (como gerente de projeto) e outras informações associadas à eles. Dentre essas informações geralmente encontram-se a categoria gramatical (POS), ca- racterísticas morfo-sintáticas (gênero, número, pessoa, modo, tempo, etc) e ca- racterísticas semânticas (como descrições semânticas e sinônimos, por exem- plo).

Na abordagem tradicional, o analisador léxico-morfológico tipicamente que- bra a sentença em ítens lexicais e trata em seguida cada um deles, decompondo- os em seus morfemas. Para isso, o analisador busca no léxico as diferentes descrições ligadas aos ítens, trazendo todas as possíveis formas de categoriza- ção e associando-as a cada morfema. A resolução de possíveis ambigüidades é deixada para uma etapa subseqüente. Esse tratamento pode ser implementado através de índices ou percurso em árvores, por exemplo.

Em uma abordagem mais recente um etiquetador gramatical (POS tagger) associa cada item lexical à apenas uma categoria gramatical (a etiqueta) de acordo com a posição que a palavra ocupa na frase. Essas etiquetas podem incluir artigos, substantivo, adjetivo, verbo, advérbio, preposição, conjunção, entre outros. Assim, ao encontrar a palavra para o etiquetador deverá decidir se a associa a etiqueta de preposição ou de verbo, efetivamente removendo a ambigüidade do item na sentença.

4.2 Componentes de um Tratamento Lingüístico 42

Esse processo de etiquetagem tem então como entrada a cadeia de ítens lexicais e como saída um conjunto com os ítens lexicais e a etiqueta apropriada associada a cada um deles. A decisão de melhor etiqueta para cada item pode ser baseada em algoritmos estocásticos ou de regras.

Os algoritmos baseados em métodos estocásticos resolvem situações de ambigüidade através de um modelo treinado com um corpus pré-etiquetado a mão. Um dos corpus pré-etiquetados mais utilizados para isso é o Corpus Brown. Esse corpus (FRANCIS; KUCERA, 1967) é provavelmente o corpus mais conhecido na disciplina de lingüística computacional. Ele contém mais de um milhão de palavras e foi estabelecido na década de 60 e 70 na Brown University com uma amostra bem equilibrada do inglês que se usava na América nesse tempo. Nele se encontram vários tipos de texto, tais como reportagens, ficção, textos científicos, legais, etc. Pelo seu pioneirismo, esse trabalho acabou esta- belecendo etiquetas que são ainda muito comuns nos trabalhos de hoje em dia. Ainda que a maior parte dos sistemas do tipo POS considere a existência de 8 categorias básicas, alguns lingüístas terminam por refinar a análise de corpus de texto usando classificações mais detalhadas de classes de palavras. Com o passar do tempo essas análises foram estabelecendo uma série de abreviações para se referir às várias partes do discurso. No Corpus Brown, por exemplo, a tag “JJ” é usada para representar adjetivos, mas existem ainda mais de 80 outros marcadores ou tags nesse corpus.

Durante o treinamento desses modelos de etiquetagem, cada item do cor- pus é analisado e a probabilidade de cada palavra pertencer a uma etiqueta, dado um certo contexto (por exemplo, a etiqueta da palavra precedente) é com- putada. No momento de aplicação do modelo o analisador utiliza a probabi- lidade ligada à palavra sendo analisada e ao seu contexto para decidir sobre a melhor etiqueta para ela.

Os algoritmos baseados em regras utilizam bases de regras que são apli- cadas contra cada palavra para identificar a categoria desse item lexical. Um exemplo desse tipo de regra poderia ser: se a palavra é composta pelo sufixo -agementão a etiqueta é “Substantivo”.

Atualmente, um dos etiquetadores mais utilizados é o idealizado por Brill (1995) e que combina os dois métodos mencionados.

O método criado por Brill, ao qual ele deu o nome de “error-driven trans- formation-based tagger”, é baseado em erro pois utiliza um mecanismo de aprendizado supervisionado para estabelecer, em primeiro lugar, a etiqueta

4.2 Componentes de um Tratamento Lingüístico 43

mais provável para cada palavra, e posteriormente, as regras de transforma- ção que podem alterar cada etiqueta de acordo com algum contexto em que a palavra está inserida.

No momento do aprendizado, o algoritmo básico de Brill sugere uma in- icialização da etiqueta de cada palavra. Essa inicialização pode ser baseada em um vocabulário construído com base em um corpus de treinamento pré- anotado e que contém a etiqueta que mais comumente está associada a cada palavra do corpus de treinamento. Se a palavra não é encontrada no vocabulá- rio, é então associada a uma etiqueta padrão, como “noun”.

Em seguida, já na fase de aprendizado, uma série de possíveis transforma- ções são executadas contra o texto recém inicializado. Uma transformação é composta de dois componentes: o contexto de disparo da transformação e a regra de modificação. Um exemplo de contexto de disparo é:

A palavra precedente é um “determiner” (artigo). E um exemplo de regra de modificação é:

Mudar a etiqueta de “modal” (verbo modal) para “noun” (substantivo).

Juntos, esses componentes corrigem o erro de etiquetagem associada à palavra

can na frase:

The/determiner can/modal rusted/verb ./. para

The/determiner can/noun rusted/verb ./.

Cada uma das transformações de um espaço de transformações candidatas é su- cessivamente executada contra o texto anotado inicialmente e uma função objetivo (o número total de erros de etiquetagem, por exemplo) é calculada. A transformação as- sociada ao menor valor da função objetivo é escolhida. O corpus inicializado é então submetido a ela e o resultado é usado em uma nova rodada para escolher a próxima transformação que minimiza o número de erros. Assim sucessivamente até que um limite mínimo na função objetivo tenha sido atingido (normalmente, até que não se encontrem mais erros). A fase de aprendizado termina então com uma lista ordenada de transformações.

No momento de etiquetagem de um novo corpus, o mecanismo de inicialização é executado e em seguida cada uma das regras de transformação escolhidas é executada na seqüência em que foram aprendidas.

4.2 Componentes de um Tratamento Lingüístico 44

96,6% na etiquetagem do Penn Treebank Tagged Wall Street Journal Corpus (MARCUS; SANTORINI; MARCINKIEWICZ, 1993) de 1,1 milhão de palavras.