• No results found

5. Analysis

5.4 Profitability analysis solar thermal collectors

5.4.4 Sensitivities

Do ponto de vista da computação, textos são representados por meio de ar- quivos que contém uma seqüência de caracteres. Em geral, no processamento lingüístico é necessário identificar e categorizar as partes do texto que nos in- teressam. As sentenças, parágrafos, títulos, palavras, conceitos, entidades, etc. presentes no texto precisam ser identificadas e tratadas.

4.2 Componentes de um Tratamento Lingüístico 39

vra, ou item lexical que compõe o texto. A quebra de um texto em tokens não é tarefa tão trivial quanto parece a princípio, já que para isso não basta identificar cadeias de caracteres separadas por “espaços”: as palavras podem ser seguidas por pontuação (vírgula, ponto, exclamações, etc.). Outras exce- ções como, por exemplo, “aren’t” no inglês (uma contração das palavras are e not e portanto dois tokens) ou “UDP-Gal:glycosylphosphatidylinositol” (um só token) precisam ser previstas e tratadas durante a “tokenização” (ou etique- tagem, como também é chamado em português) do texto. Em outras línguas o problema pode ser ainda mais complexo: em chinês por exemplo os caracteres correspondem a morfemas monossilábicos; muitos morfemas constituem por si só uma palavra, mas a maioria das palavras são compostas por mais de um morfema.

Outros problemas contribuem para tornar a tokenização uma tarefa não trivial. Os pontos finais usados na abreviação de palavras, como por exemplo, “etc.”, ou “S.P.” (o estado brasileiro), “Wash.” (o estado americano), devem em geral ser mantidos como parte da palavra e não sinalizam necessariamente o fim de uma sentença. O uso de hífens pode tanto estar ligado a quebras de palavras por razões estéticas e tipográficas quanto indicar conceitos com- postos, como em “carbon-based life forms” ou “pro-Arab”. Hífens são usados também em situações de citação (como na expressão inglesa “a final take-it-or- leave-itoffer”) ou em expressões de quantidade (“a 4-bedroom house” ou “the 12-year-old”).

No outro lado do problema, algumas línguas (sobretudo no leste asiático) não costumam usar espaço entre as palavras. Mesmo em alemão, onde se man- tém em geral espaços entre as palavras, encontram-se termos como Dienstleis- tungsbetrieb(‘empresa do setor de serviços’). Ainda que possa fazer sentido do ponto de vista lingüístico, já que palavras compostas apresentam um conceito próprio, quebrá-las em seus componentes pode ser importante para alguns ti- pos de análises. Essa tarefa é conhecida como segmentação (ou divisão) de palavras.

Mudando de estratégia na análise da tarefa de tokenização, os espaços em branco podem não necessariamente representar quebras nas palavras. Nú- meros de telefone “(11) 3091 5262”, cidades como “São Paulo” deveriam ser reconhecidas como um só token. Outros exemplos são os phrasal verbs do in- glês “make up” ou “work out” (que ademais podem ser separados por outras palavras como em “he couldn’t work the answers out”) e algumas expressões do tipo “in spite of”, “because of”, etc. Um mecanismo de tokenização menos

4.2 Componentes de um Tratamento Lingüístico 40

sofisticado pode tentar incorretamente separar essas expressões (ou lexemas1).

O reconhecimento de sentenças é também uma tarefa pouco ordinária já que não basta procurar na cadeia de caracteres do texto um delimitador como o “.”, “?” ou “!”. Ainda que na grande maioria das ocasiões um ponto sinalize efetivamente o limite de uma sentença, existem vários tipos de situação em que isso não é verdade (abreviações são exemplos evidentes disso, como em "O Sr. Fernando telefonou".). As vezes “;”, “:” e mesmo “-” podem sugerir a divisão entre sentenças. Outro fator complicador é o discurso direto em frases como “ ‘É incrível’, disse ele, ‘como você é bela’ ”.

A tokenização e a identificação de sentenças estão entre as primeiras tare- fas de uma aplicação de processamento lingüístico. Das informações que elas fornecem a respeito do texto vão depender outras tarefas típicas desse tipo de processamento.

Outro conceito importante no processamento de linguagem natural é o da anotação. Anotações são estruturas de dados simples que conectam blocos de caracteres de um texto com uma característica qualquer que se deseja “anotar”. Por exemplo, no frase abaixo poderíamos ter as seguintes anotações:

Time flies like an arrow. 1...+....10...+....20...+

• anotação 1: tipo=“Token”, pos_inicial=1, pos_final=4, valor=“Time” • anotação 2: tipo=“Token”, pos_inicial=6, pos_final=10, valor=“flies” • anotação 3: tipo=“Token”, pos_inicial=12, pos_final=15, valor=“like” • anotação 4: tipo=“Token”, pos_inicial=17, pos_final=18, valor=“an” • anotação 5: tipo=“Token”, pos_inicial=20, pos_final=24, valor=“arrow” • anotação 6: tipo=“Sentença”, pos_inicial=1, pos_final=25, valor=“Time

flies like an arrow.”

Outra questão importante no tratamento preliminar dos textos em aplica- ções de tratamento de linguagem é a decisão sobre reduzir ou não as diferentes formas de palavras em lexemas (por exemplo, “analisar”, “análise”, “Análises”,

1Um lexema é um conjunto de palavras de mesma classe morfológica que se distribuem

de forma complementar e diferem morfologicamente entre si unicamente por sufixos flexivos. Por motivo de economia, os dicionários utilizam intensivamente o conceito de lexema.

4.2 Componentes de um Tratamento Lingüístico 41

“analisou”, “analisando”, etc. seriam todos representados pelo lexema “analis”). Essa tarefa é comumente chamada na literatura de stemming, mas também pode ser referida como lemmatization. O stemming é uma questão bastante de- batida já que, apesar de parecer fazer sentido eliminar pequenas diferenças nas palavras e focar no seu lexema, pesquisas empíricas feitas pela comuni- dade de Recuperação de Informações (Information Retrieval) têm demonstrado que basear sistemas apenas nos radicais das palavras não melhora o seu de- sempenho (HULL, 1996). A principal razão para isso está ligada à perda de informação resultante do processo, sobretudo em línguas que apresentam sis- temas mais complexos de inflexão e derivação. Por outro lado, do ponto de vista da disciplina de Extração de Informações (Information Extraction), esse tipo de conclusão ainda não é dominante.