Data Collection - Challenges and opportunities that define the success of an FPSO project

3 Methodology

3.3 Data Collection

A contagem do número de quebras de cadeias de co-referência é uma medida de avaliação da qualidade textual dos sumários gerados automaticamente por indicar, pontualmente, os casos específicos em que, em tese, uma inconsistência estrutural insere um problema de ordem superficial (organização estrutural ou linear) que leva a uma deficiência na organização reticulada do texto – organização das idéias (estrutura profunda).

Essa consideração inicial é relevante porque leva em consideração um aspecto bastante importante do estudo do fenômeno co-referencial: a questão das quebras de cadeias de co- referência. Ressaltamos, também, que, apesar de darmos destaque para as descrições definidas em outras etapas de nossa pesquisa (avaliação da Teoria das Veias, por exemplo),

nesta etapa de avaliação do VeinSum utilizamos a marcação de CCR completa, incluindo, além das descrições definidas, as outras formais, tais como pronomes e expressões indefinidas.

Em nosso trabalho, não nos ocupamos do estudo pontual e analítico dessas quebras – por questões operacionais, tais como a não-disponibilidade de um córpus extenso e significativo que propiciasse, através de experimentos, casos de quebras em número e variedade suficientes para uma análise consistente. Usamos, na avaliação, critérios clássicos e já utilizados em experimentos anteriores (Carbonel et al., 2006), que ficam explicitados no esquema da Figura 31:

Figura 31. Avaliação dos casos de quebra de CCR

Esse tipo de avaliação, no entanto, se dá em um nível muito superficial de análise, pois não leva em consideração o tipo de relação de dependência há entre o elemento referencial e seu referente. Podemos, a partir de dois exemplos retirados de nosso córpus, ilustrar como dois casos de quebra são diferentes com relação ao impacto que exercem com relação ao contexto do sumário:

E1 (CIENCIA_2000_17108): “não é mero personagem de ficção. Para uma aranha da Costa Rica, essa criatura existe. Apesar do nome o tal invasor de corpos é só uma vespa.(...)”

Verificação da ocorrência de elementos referenciais (anáforas marcadas como tais na anotação) no sumário gerado

SIM

NÃO

O elemento referencial é uma anáfora direta (mesmo núcleo nominal do termo referente)?

NÃO

SIM

E2 (CIENCIA_2000_17109): “O estudo, mostra que, além disso, elas são capazes de originar outro tipo de célula dentro do organismo humano.”

Nos exemplos acima, temos três expressões marcadas, na anotação, como referenciais e seus antecedentes não se encontram nos sumários de onde as sentenças foram extraídas57: [essa criatura] em E1 e [o estudo] e [ela] em E2. No primeiro caso, notamos que, apesar na

não inserção do termo antecedente no sumário, a expressão [essa criatura] sobre uma progressão na construção de sua referência, de modo que, através de referências catafóricas complementares – [o tal invasor de corpos] e [ uma vespa] – o sentido é recuperado, mesmo sem o antecedente. Nos casos de E2, porém, as expressões [o estudo] e [ela], dependem exclusivamente do que vem antes (antecedente textual) para que o leitor tenha noção de a qual ente discursivo remetem. Ao analisarmos detidamente apenas as duas expressões, podemos ainda perceber que [o estudo] possui, com relação ao seu antecedente, uma relação de dependência menos significativa que [ela], pois, através das restrições semânticas inerentes à expressão, é possível limitar o escopo de busca no texto pelo termo antecedente (em outras palavras, o leitor tem um poder inferencial maior para fazer suposições acerca de “o que é” o estudo). O pronome pessoal [ela], porém, possui apenas restrições de número e gênero, aumentando, assim, as possibilidades interpretativas e dificultando o processo inferencial por parte do leitor.

Estes exemplos servem de base para a conclusão de que o fenômeno de quebra de CCR demanda um estudo mais acurado e dotado de um embasamento metodológico mais consistente que o contexto da presente pesquisa. Por esta razão mesmo, optamos por um olhar mais simplório que, dadas as propostas de aplicação de recursos lingüísticos visando à melhoria da resolução anafórica (o uso da Teoria das Veias, por exemplo), limitou-se à avaliação quantitativa, e não à qualitativa.

Analisando, então, o desempenho dos sumários automaticamente produzidos pelo VeinSum, tendo o RheSumaRST por baseline, chegamos à seguinte contagem de quebras, que podemos observar na tabela 16:

VeinSum RhesumaRST # text id # CCR qbr2 _{CCR qbr} 2000_17082 1 3 2000_17088 0 1 2000_17101 0 1 2000_17108 0 3 2000_17109 0 1 2000_17112 0 0 2000_17113 0 0 2002_22023 1 1 2003_24219 0 4 2004_26415 0 2 2005_28747 2 0 2005_28756 0 4 TOTAL 4 20 MÉDIA 0,33 1,66

tabela 16. Avaliação das quebras de CCR

O interessante nos dados acima é que, apesar de adotarem, em linhas gerais, a mesma proposta metodológica de agregação da estruturação RST e o cálculo do domínio de acessibilidade referencial (Teoria das Veias), o desempenho dos dois sistemas foi bastante discrepante: o RheSumaRST apresentou 400% a mais de quebras que o VeinSum.

Acreditamos que as causas desses desempenhos distintos sejam de ordens diferentes e complementares. Em primeiro lugar, o RheSumaRST apresenta problemas estruturais relacionados à sua programação – os assim denominados “bugs”58 – que podem ser melhor compreendidos através da leitura dos sumários produzidos pelo sistema59. No texto CIENCIA_200_17108, por exemplo (e este caso se repete em outros textos), a árvore RST de entrada possui uma relação, logo na primeira sentença, de SAME-UNIT, que é estrutural e multinuclear. O RheSumaRST, porém, separa as duas proposições e não insere a primeira.

58_{Essa avaliação não está relacionada ao nosso trabalho enquanto lingüistas, mas é um parecer fornecido pelos cientistas}

da computação que ampararam o desenvolvimento deste projeto.

Além desses problemas, outra causa do número excessivo de quebras parece ser a grande quantidade de informação desnecessária que o sistema insere nos sumários, exatamente por não considerar um contexto referencial menos oneroso (aquele cujo acc não corrompe demasiadamente a taxa de compressão). Ao estudarmos os sumários produzidos pelo RheSumaRST, observamos sumários muito extensos e com muitas expressões anafóricas não resolvidas.

Essa constatação nos leva à hipótese de que a inserção de mais informação, em lugar de aumentar as possibilidades de inserção da informação contextual necessária à resolução anafórica, eleva o número de expressões referenciais a serem resolvidas. Desse modo, sumários menores, obtidos a partir de uma metodologia que visa a contenção, como é o caso do VeinSum, tendem a ter menos casos de quebras que sumários maiores.

In document Challenges and opportunities that define the success of an FPSO project (sider 34-38)