• No results found

Risikokilder og håndtering av risiko

In document Skogeiernes beslutningsatferd (sider 38-43)

3 Resultater

3.4 Risikokilder og håndtering av risiko

Seguindo o que ´e comum na literatura, e face `a escassez de conjuntos de dados de treino e teste, o estudo da adaptabilidade do corpus `a nossa tarefa n˜ao costuma ser feito e n˜ao vai ser feito no presente trabalho.

Deixamos aqui no entanto alguma informa¸c˜ao sobre o corpus que est´a `a nossa dis- posi¸c˜ao, e cuja constitui¸c˜ao est´a em linha com a constitui¸c˜ao que ´e tipico encontrar para corpora usados em processamento de linguagem natural.

O corpus ´e composto por 689.1262

lexemas anotados, cada um verificado manual- mente por especialistas em lingu´ıstica. A anota¸c˜ao inclui informa¸c˜ao sobre a classe morfossint´actica, sobre o lema e a flex˜ao das classes abertas, sobre express˜oes multi- palavra pertencentes `a classe dos adv´erbios e `as classes fechadas, e sobre nomes pr´oprios multi-palavra.

Este corpus inclui 63.4% de texto recolhido de artigos, jornais e revistas. O resto do corpus ´e essencialmente constitu´ıdo por textos liter´arios.3

O corpus ´e composto por excertos como este:

Com/PREP[O] tiros/TIRO/CN\#mp[O] de/PREP[O] ca¸cadeira/CAC¸ADEIRA/CN\#fs[O] ,*//PNT[O] um/UM\#ms[O] desconhecido/DESCONHECIDO/CN\#ms[O] sem/PREP[O] motivo/MOTIVO/CN\#ms[O] aparente/APARENTE/ADJ\#ms[O]

abateu/ABATER/V\#ppi-3s[O] uma/UM\#fs[O] fam´ılia/FAM´ILIA/CN\#fs[O]

2

De notar que apenas me refiro `a parte escrita, o corpus divide-se em duas partes, escrita e oral. No presente trabalho iremos usar apenas a parte escrita

3

Cap´ıtulo 3. Estado-da-arte 15

inteira/INTEIRO/ADJ\#fs[O] .*//PNT[O]

Cada lexema pode ter cinco campos distintos, a forma ortogr´afica (e.g. ca¸cadeira), o lema (CAC¸ ADEIRA),4

a categoria morfossint´actica (CN), a informa¸c˜ao sobre tra¸cos de flex˜ao (fs) e informa¸c˜ao sobre express˜oes multi-palavra ([0]).

Pegando num lexema referente a um verbo deste excerto - abateu/ABATER/V#ppi- 3s[O] - o primeiro campo abateu representa a forma ortogr´afica, ABATER representa o lema. Quanto `a informa¸c˜ao morfossint´actica, primeiro vem a categoria gramatical. Depois, separado por um ’#’, vˆem os tra¸cos que levam o lema `a forma flexionada, que ocorre no texto original. Por ´ultimo, entre parˆentesis rectos, vem a informa¸c˜ao relativa ao lexema fazer parte ou n˜ao de uma entidade nomeada e, se sim, de que modo.5

Para a nossa tarefa de desambigua¸c˜ao da flex˜ao verbal vamos precisar ape- nas do conte´udo de trˆes campos: a forma ortogr´afica (abateu), o lema (ABATER) e os tra¸cos de flex˜ao (ppi-3s).

Em (Branco et al., 2007) o problema da ambiguidade verbal foi quantificado. Com o conjugador verbal,6

geraram-se todas as formas flexionadas para os lemas conhecidos.7

Estes ´ultimos perfazem um total de 11.350 entradas que deram origem a 816.830 formas conjugadas. Destas formas, apenas 598.651 s˜ao formas ´unicas, diferentes entre si quando se ignora o conjunto de tra¸cos de flex˜ao que expressam.

Como foi explicado anteriormente na sec¸c˜ao 2.1, a ambiguidade associada `a flex˜ao verbal pode ser de trˆes tipos. Ambiguidade de lema, de tra¸cos, ou de ambos os tipos. Tendo isto em conta, (Branco et al., 2007) determinaram que das 598.651 formas verbais ´unicas, 438.064 s˜ao n˜ao amb´ıguas, sendo 73.18% dessas formas ´unicas. As formas verbais amb´ıguas nos tra¸cos s˜ao 159.376, ou seja 26.62%. Apenas 141 formas tˆem ambiguidade de lema, o que representa 0.02% das formas. A ambiguidade de lema e tra¸co afecta 1.070 formas verbais, representando 0.18%.

No corpus que vou utilizar ocorrem 85.6428

formas verbais, etiquetadas como V, VAUX, INF, INFAUX, GER, PPT, PPA, INFAUX e GERAUX. VAUX etiqueta os verbos auxiliares, como por exemplo tinha sido em que o verbo ter na sua forma tinha est´a a auxiliar o verbo ser na sua forma sido. INF etiqueta os infinitivos, como por exemplo ser em que a forma ortogr´afica ´e igual `a forma lematizada. Contudo, os infinitivos podem ser flexionados em g´enero e n´umero. INFAUX etiqueta os infinitivos auxiliares, como por exemplo ter sido em que a forma infinitiva do verbo ter est´a a auxiliar o verbo ser na sua forma sido. GER etiqueta os ger´undios, como por exemplo tornando, e GERAUX os ger´undios aux-

4

apenas se este puder ser diferente da forma ortogr´afica em resultado da flex˜ao.

5

valores possiveis para os campos de informa¸c˜ao morfossint´actica encontram-se em http://lxcorpus.di.fc.ul.pt/cintilwhatsin.html#pos

6

http://lxconj.di.fc.ul.pt

7

Sem incluir formas com cliticos inerentes e formas de verbos compostos

8

iliares, como por exemplo tendo sido em que o verbo ter na sua forma do ger´undio tendo est´a a auxiliar o verbo ser na sua forma sido. PPT etiqueta os partic´ıpios passados em tempos compostos, como por exemplo sido em tendo sido, etiquetando PPA os partic´ıpios passados que n˜ao ocorrem em tempos compostos, como por ex- emplo reflectida em luz reflectida que ´e um partic´ıpio passado do verbo reflectir. V etiqueta as restantes ocorrˆencias de formas verbais.

Destas 85.642 ocorrˆencias, 57.968 s˜ao lexicalmente amb´ıguas. Por sua vez, es- sas 85.642 ocorrˆencias s˜ao ocorrˆencias de 15.640 formas ´unicas, entre as quais se encontram 7.637 formas ´unicas lexicalmente amb´ıguas.

De notar que apenas 2.6% do total de formas ´unicas do l´exico ocorre no corpus. Por´em, quase metade das formas ´unicas que a´ı ocorrem s˜ao amb´ıguas. Sendo que s˜ao aproximadamente 68% as formas amb´ıguas do total de ocorrˆencias no corpus. Na Figura 3.1 apresenta-se a distribui¸c˜ao das formas verbais por grau de ambiguidade, isto ´e, por n´ıvel de diferentes leituras lexicalmente adm´ıssiveis por forma verbal. Verifica-se que o grau de ambiguidade diminui com o aumento de frequˆencia.

Figura 3.1: N´umero de ocorrˆencias de formas verbais por grau de ambiguidade.

Em suma, e no que tem impacto para a tarefa de desambigua¸c˜ao: quase metade dos tipos que tˆem instˆancias no corpus s˜ao amb´ıguos; e cerca de 68% das ocorrˆencias de formas verbais carecem de desambigua¸c˜ao em contexto. Para quantificar por tipo de ambiguidade, ver Figura 3.2.

De notar que nesta estat´ıstica n˜ao s˜ao consideradas formas verbais com cl´ıtico ou compostas.

Cap´ıtulo 3. Estado-da-arte 17

Figura 3.2: Propor¸c˜ao de ocorrˆencias no corpus de formas verbais lexicalmente amb´ıguas por tipo de ambiguidade.

In document Skogeiernes beslutningsatferd (sider 38-43)