2 Theoretical Framework
2.3 Elements that influence FPSOs projects
Recuperando, em breve síntese, o que vimos na seção 8.2, o RheSumaRST aplica as teorias mencionadas acima, de modo a permitir a poda, para a qual aplica um critério de seleção que visa à manutenção dos elos referenciais. De acordo com este critério, o sistema prioriza a inclusão de todas as EDUs contidas nas veias das EDUs inicialmente selecionadas pelo modelo de saliência aplicado. Assim, tomemos um exemplo hipotético de um texto composto por 10 EDUs, classificadas (por sua saliência) do seguinte modo:
[+ saliente] EDU 1 > EDU 3, EDU 4 > EDU 2 > EDU 5, EDU 6 > EDU 8, EDU 10 > EDU 9 [- saliente]
Ao aplicarmos uma taxa de compressão de 30% (esperando obter sumários com cerca de 30% do tamanho do texto-fonte), e considerando que as EDUs tenham uma mesma extensão interna no que se refere ao número de palavras, teríamos um sumário formado pelas EDUs 1, 3 e 4. Como o sistema objetiva a manutenção das cadeias de co-referência, as veias (e não apenas o domínio de acessibilidade referencial) serão consideradas no processo de seleção:
EDU 1 (veia = EDU 1), EDU 3 (veia = EDU 1, EDU 3), EDU 4 (veia = EDU 2, EDU 4, EDU 6)
O sistema identifica, portanto, que, para manter os elos referenciais, é necessário inserir, além das EDUs inicialmente escolhidas, as EDUs 2 e 6, a fim de manter a coesão
referencial do sumário, que agora é composto pelas EDUs 1, 2, 3, 4 e 6. Como foram inseridas novas EDUs, o sistema opera recursivamente o mesmo processo anterior, verificando as veias dos novos componentes do sumário:
EDU 1 (veia = EDU 1), EDU 2 (veia = EDU 1, EDU 2), EDU 3 (veia = EDU 1, EDU 3), EDU 4 (veia = EDU 2, EDU 4, EDU 6), EDU 6 (veia = EDU 1, EDU 5, EDU 6)
Ao considerar a veia da EDU 6, o sistema ainda inseriu a EDU 5, passando o sumário a ser composto pelas EDUs 1, 2, 3, 4, 5 e 6. Aplica-se a recursão novamente para contemplar a veia da EDU 5, que contém as EDUs 1, 3 e 5. Como estas já compõem o sumário, o sistema pára e considera feita a seleção para a composição do sumário final. Como podemos observar neste exemplo meramente hipotético, há uma violação considerável da taxa de compressão – de 30% iniciais, terminamos com um sumário correspondente a 60% do texto-fonte.
Nos trabalhos de Seno (2005), não encontramos uma avaliação específica das violações da taxa de compressão. A premissa básica do referido sistema é preservar, a todo custo, todo contexto referencial possível, mesmo que isso implique transgredir o tamanho pré- estabelecido pelos parâmetros de compressão – em outras palavras, o RheSumaRST privilegia a possível coerência em detrimento da extensão dos sumários.
Realizando exatamente esse contexto experimental com o Córpus Summ-it, geramos sumários automáticos (com o RheSumaRST) com taxa de compressão de 30%, obtendo sumários com uma média de 40,63% do texto-fonte, o que corresponde a uma violação média de 35,43% com relação à proposta inicial de compressão, como mostra a Tabela 14.
Tabela 14. Análise da taxa de compressão do RheSumaRST
RheSuma # text id # # texto-fonte # extensão
2000_17082 270 (41,11%) 111 2000_17088 370 (39,45%) 146 2000_17101 315 (40,31%) 127 2000_17108 282 (67,73%) 191 2000_17109 241 (36,92%) 89 2000_17112 291 (46,04%) 134 2000_17113 368 (39,94%) 147 2002_22023 377 (46,68%) 176 2003_24219 360 (46,38%) 167 2004_26415 268 (48,50%) 133 2005_28747 288 (45,13%) 130 2005_28756 455 (35,82%) 163 TOTAL 3385 1714 MÉDIA 324 (40,63%) 143
A implementação de um sistema como o RheSumaRST obviamente lida com a possibilidade de variação da taxa de compressão nos sumários gerados – sumários menores ou maiores que o determinado pelo usuário do sistema. Para a taxa de 30%, sumários entre 25% e 35% de compressão com relação ao texto-fonte podem ser considerados aceitáveis53. Para os sumários gerados pelo RheSumaRST, apenas um sumário (2005_28756) se enquadra nesse parâmetro, com pouco menos de 36% de compressão. Ao observarmos o caso mais gritante – texto 2000_17108 – vemos que o sumário gerado neste texto viola a taxa de compressão em 125,8%, ou seja, é mais de duas vezes maior que o inicialmente proposto para o sumário, chegando, nesse caso, a não poder ser considerado uma versão condensada do texto-fonte.
53 Parâmetro puramente empírico. Nos trabalhos da DUC, o parâmetro recomendado é exatamente a taxa de compressão;
para este trabalho, adotamos uma tolerância maior, permitindo esta variação “além” da taxa máxima, de modo a não penalizar excessivamente nenhum dos dois sistemas.
Nossa proposta de melhoria, nesse sentido, ao mesmo tempo que objetiva a preservação da coerência, mais especificamente no tocante ao fenômeno do encadeamento referencial, considera importante não transgredir significativamente a taxa de compressão, uma vez que a meta básica desse tipo de sistema é a produção de sumários. No RheSumaRST, a transgressão se dá, sobretudo, pela condição de se inserir incondicionalmente toda veia completa de cada EDU que é escolhida para compor um sumário, como vimos no exemplo anterior.
Como vimos na seção 5.3, a veia de uma EDU abrange todos os elementos encadeáveis referencialmente à mesma, incluindo não apenas as anáforas, como também as catáforas. Ao processo de resolução anafórica – que é o pretendido pelo RheSumaRST – interessam apenas as EDUs candidatas a termo antecedente, ou seja, anteriores à EDU em questão. Para isso, a própria Teoria das Veias prevê o domínio de acessibilidade referencial.
Ao considerar a veia inteira, o RheSumaRST aumenta, portanto, consideravelmente o número de elementos inseridos, o que pode explicar as significativas violações à taxa de compressão.
Resta, por fim, reconsiderar uma das premissas essenciais do RheSumaRST à luz da validação das Teoria das Veias para o português. Conforme já dito anteriormente, ao utilizar a VT para aplicações em Língua Portuguesa, Seno não contava com dados específicos para a língua, baseando-se apenas nos resultados (quase absolutos, lembremos- nos) apresentados por Cristea et al. para outras línguas. Por conta disso, talvez, Seno assumiu em seu trabalho que a inserção das veias dos constituintes do sumário garante, apenas com uma pequena margem de erro, a manutenção dos elos referenciais anafóricos. Demonstramos neste trabalho, porém, que os tipos de resolução anafórica de fato relevante são aqueles que chamamos de não-triviais, para os quais a cobertura da VT é de aproximadamente 80%.
Sintetizando, os problemas que podemos identificar no RheSumaRST – considerando-se apenas os aspectos qualitativos dos resultados gerados pelo sistema54 – destacamos: a violação excessiva da taxa de compressão e a utilização da veia inteira (e não apenas do domínio de acessibilidade referencial) como parâmetro para a garantia da manutenção dos elos.
Com base na identificação destes pontos problemáticos, propusemos uma reimplementação do RheSumaRST com base em alterações significativas em algumas etapas do processo. É o que passamos a descrever na próxima seção.