4 Empirical Data
4.1 Floating Production Units
A avaliação da informatividade dos sumários automáticos é de grande importância para a avaliação das propostas teóricas de um modelo de sumarização. Neste trabalho, além da medida tradicionalmente adotada na área (objetiva), calculada com o auxílio da ferramenta ROUGE (Lin, 2004a; Lin, 2004b)60, utilizamos uma medida subjetiva, apresentada nesta seção.
Adotamos a medida ROUGE com uma dupla função: i) a de avaliar um sistema lingüístico- computacional através de uma medida reconhecida na área; e ii) validar, através de uma análise objetiva. Quanto à metodologia subjetiva, a adotamos por se tratar de uma abordagem mais rica em análise lingüística.
Na avaliação de informatividade dos sumários gerados automaticamente pelo RheSumaRST, Seno partiu da hipótese de Mani (2001), segundo a qual heurísticas baseadas na reprodução das informações constantes em sumários manuais garante a informatividade mínima dos sumários automáticos, uma vez que os sumários manuais são considerados ideais.
60 Essa ferramenta foi adotada a partir da DUC de 2004 como apoio à avaliação automática (vide http://www-
O parâmetro avaliativo apresentado pela autora é a comparação entre as ocorrências das relações retóricas nos sumários gerados manual e automaticamente, considerando a presença das mesmas relações nos dois sumários. Assim, se uma determinada relação ocorre, por exemplo, dez vezes nos sumários automáticos e se verifica sua ocorrência apenas cinco vezes nos sumários gerados, assume-se que a representatividade da relação é de 50%.
No contexto dos trabalhos em Sumarização Automática, uma ferramenta de avaliação bastante difundida é a ROUGE, que consiste em um pacote de medidas. Uma vantagem da ferramenta é a fácil reprodução desta avaliação e o baixo custo de se executá-la – se comparado com uma avaliação manual. Considera-se que a ROUGE possui a vantagem de ser uma ferramenta de avaliação dotada de consistência, evitando-se, assim, os erros humanos geralmente cometidos.
Baseada na medida BLEU (Pepineni et al., 2001), fortemente utilizada para a avaliação de sistemas de tradução automática, a ROUGE usa a abordagem de co-ocorrência de n- gramas, que consiste em verificar a média de quantas vezes cada conjunto de n palavras adjacentes se repetem em cada texto a ser avaliado.
O pacote da ROUGE utilizado oferece cinco medidas, tendo como elemento de comparação sumários de referência, considerados ideais porque produzidos manualmente:
ROUGE-1: equivalente à medida unigramas, avalia a média do número de vezes uqe cada palavra aparece em cada um dos textos.
ROUGE-2: mede bigramas, isto é verifica a freqüência de cada par de palavras que aparece em cada texto de entrada no sumário.
A ROUGE-3 e ROUGE-4, semelhantes às medidas 3-grama e 4-grama, respectivamente, são pouco utilizadas, visto que a repetição de conjuntos de 3 ou 4 palavras adjacentes é muito incomum.
ROUGE-L: Baseado na subseqüência comum mais longa (o Longuest Common
Subsequence - LCS), busca as maiores sub-cadeias comuns entre os dois textos,
executando então uma avaliação similar à co-ocorrência de n-gramas.
Em nossa pesquisa, utilizamos a ROUGE a fim de verificar a similaridade entre os sumários automáticos e os sumários de referência, o que permitiu analisar consistência de nossa avaliação lingüística, apresentada na seção anterior. Os dados que seguem correspondem à utilização da medida ROUGE-1, e foram produzidos para o VeinSum, para o RheSumaRST e para um baseline eleito para o experimento, o GistSumm (Pardo et al., 2002).
Como discutimos na subseção anterior, os sumários automáticos produzidos pelos diferentes sistemas de SA possuem, no mais das vezes, algum nível de corrupção da taxa de compressão, ora ultrapassando a taxa estabelecida (30% do texto-fonte), ora ficando aquém da mesma (o caso mais expressivo que temos é um sumário com 26,6% do texto-fonte). Por conta dessa diferença, particularmente entre o VeinSum e o RheSumaRST (sumários com média de compressão de 34,1% e 40,7%, respectivamente), o RheSumaRST apresentou uma medida de informatividade superior a do VeinSum. Ou seja, o RheSumaRST, por conter sumários com mais palavras, possui maior chance de, em comparação com os sumários manuais, apresentar melhores resultados. O VeinSum, por sua vez, alia dois objetivos: respeitar os parâmetros de compressão e manter os atributos textuais do sumário, particularmente a coesão referencial e a informatividade
Para minimizar, então, esta discrepância entre os sumários produzidos pelos sistemas, adotamos uma metodologia de uniformização dos sumários, baseada no truncamento do sumário maior. Este processo consiste simplesmente em cortar o sumário maior tendo como limite o número de palavras do sumário menor, tornando aquele comparável a este. Em nosso experimento só tivemos a necessidade de truncar os sumários do RheSumaRST, e chamamos o conjunto destes sumários modificados de “RheSumaRST truncado” e os resultados da medida ROUGE-1 estão descritos na Tabela 17.
Tabela 17. Medida ROUGE para os sumários automáticos
# text id # VeinSum RheSumaRST RheSumaRST truncado GistSumm (baseline)
2000_17082 0,54545 0,53409 0,51136 0,61364 2000_17088 0,84946 0,83871 0,82796 0,38710 2000_17101 0,56436 0,75248 0,60396 0,45545 2000_17108 0,55435 0,79348 0,63043 0,56522 2000_17109 0,59551 0,50562 0,50562 0,29213 2000_17112 0,46000 0,71000 0,55000 0,22000 2000_17113 0,47328 0,57252 0,41985 0,45038 2002_22023 0,60976 0,78862 0,73984 0,25203 2003_24219 0,72477 0,66055 0,55963 0,54128 2004_26415 0,56311 0,79612 0,59223 0,29126 2005_28747 0,56044 0,56044 0,52747 0,20879 2005_28756 0,63871 0,58710 0,56129 0,41290 Média 0,59505 0,66737 0,58073 0,40522
De acordo com esses dados, a diferença na informatividade entre os sumários gerados pelo VeinSum e pelo RheSumaRST é de apenas 0,014 (na escala ROUGE), o que não representa algo muito significativo quando comparamos os dois sistemas com o baseline, que se encontra 0,18 pontos abaixo do RheSumaRST-truncado. Essa avaliação analisa a informatividade a partir de um viés estritamente objetivo, através da comparação entre sumários manuais (ideais) e automáticos. A base dessa comparação não considera os critérios subjetivos da informatividade – adotando-se, nesse sentido, a acepção sustentada por DeBeaugrande & Dressler (1981) – contemplando apenas a verificação de co- ocorrências de elementos lingüísticos (palavras) nos sumários.