• No results found

Existem dois aspectos principais que são o alvo da avaliação dos sumários produzidos automaticamente: a informatividade e a qualidade (Mani, 2001).

A informatividade diz respeito à quantidade de informação relevante que está contida nos sumários, este tipo de avaliação é geralmente realizada de forma automática. A qualidade do sumário diz respeito à gramaticalidade, a coesão, a coerência, etc., todos esses fatores são avaliados com critérios humanos.

Para a avaliação de informatividade, uma das medidas mais conhecidas e usadas amplamente pela comunidade é a medida Rouge (Recall-Oriented Understudy for Gisting Evaluation (Lin, 2004). O princípio dessa medida é basicamente comparar a quantidade de n-gramas de palavras em comum entre o sumário produzido automaticamente e um ou mais sumários humanos, também chamados sumários de referência. Essa medida fornece resultados em termos de Precisão, Cobertura e Medida-F. A precisão (31) diz respeito ao número de n-gramas de palavras em comum entre o(s) sumário(s) de referência e o sumário automático em relação ao total de n-gramas do sumário automático; a cobertura (32) diz respeito ao número de n-gramas de palavras em comum entre o(s) sumário(s) de referência e o sumário automático em relação ao total de n-gramas do(s) sumário(s) de referência. Em outras palavras, a precisão diz quanta informação do sumário de referência está no sumário automático, enquanto a cobertura diz quanta informação do sumário de referencia foi coberto pelo sumário automático. Essas duas medidas são complementares e são ponderadas pela Medida-f (33), que calcula a média harmônica das duas.

automático sumário gramas - n humano sumário e automático sumário comum em gramas - n = Precisão (31) humano sumário gramas - n humano sumário e automático sumário comum em gramas - n = Cobertura (32) Cobertura Precisão Cobertura Precisão 2 × × × −F= Medida (33)

Essa medida é muito popular na comunidade, pois é rápida, barata e facilmente aplicável a qualquer tipo de sumário. Apesar de ser uma medida simples, Carenini e Cheung (2008) argumentam que a correlação entre a Rouge e o julgamento humano aumenta quando o número de sumários de referência aumenta também.

Uma desvantagem da Rouge é que, como apenas avalia correspondência de n-gramas de palavras, ignora todo aspecto relacionado à qualidade dos sumários. Para abordar essas

40 questões, a TAC11 (Text Analysis Conference) sugeriu cinco aspectos linguísticos para medir a qualidade dos sumários automáticos:

− gramaticalidade, que se refere aos padrões de boa ortografia, pontuação e sintaxe; − coerência, que se refere à manutenção da organização textual de forma que preserve

o sentido do texto

− não redundância, que se refere ao fato de que não existam informações repetitivas no sumário

− foco, que se refere ao fato de que as partes do texto devem estar relacionadas com o todo

− clareza referencial, que se refere a presença adequada de componentes linguísticos que liguem apropriadamente os elementos do sumário

Para avaliar os sumários de acordo com esses critérios, a TAC sugere pontuar os sumários em cada um destes aspectos com valores entre 1-5, sendo que valores mais próximos de 1 significam muito ruim, e valores próximos de 5 significam muito bom.

Outra medida importante de avaliação de sumários é a pirâmide (Nenkova e Passonneau, 2004). Essa medida considera um conjunto de sumários de referência a partir dos quais são extraídas unidades de conteúdo do sumário (SCU). A ideia é dar maior valor às unidades de conteúdo que aparecem em mais sumários de referência. Para isso, é formada uma pirâmide onde o topo representam as unidades que aparecem em mais sumários de referência. As SCU são pontuadas de acordo com a posição na pirâmide, sendo que as SCU localizadas mais no topo são mais bem pontuadas que as que se localizam mais na base da pirâmide. Os sumários mais informativos são aqueles que têm maior número de SCU próximas do topo da pirâmide.

Outras medidas menos usadas são responsiveness e utilidade relativa. Responsiveness é uma medida de avaliação humana que mede informatividade e a qualidade linguística, dando uma pontuação para o sumario com valores entre 1 e 5, sendo que valores próximos de 1 são mais ruins e valores próximos de 5 são muito bons. A utilidade relativa é uma medida de avaliação humana que fornece uma pontuação a todas as sentenças de um conjunto de textos de acordo com a sua utilidade para o usuário. A pontuação do sumário é dada com base nestas pontuações.

Esses métodos de avaliação humana têm sido relevantes na área, mas apesar disso sabe-se que o juízo humano é muito subjetivo e, portanto, nem sempre fornece um critério adequado.

Recentemente, Louis e Nenkova (2013) propuseram três formas novas de avaliar sumários, visando reduzir a influência da subjetividade humana na avaliação de sumários. Na primeira proposta, os autores sugerem medir a similaridade entre os textos fonte e os sumários automáticos, assumindo que um bom sumário é similar ao conjunto de textos do

11Conferência dedicada à competição e avaliação de sistemas de SA, antigamente chamada DUC

41 qual ele foi gerado. Na segunda proposta, os autores sugerem ampliar o conjunto de sumários de referência a partir de um conjunto pequeno de sumários de referência. Para isso, incorporam-se nesse conjunto, os sumários automáticos que tenham sido mais bem ranqueados com base na sua similaridade com os sumários de referência já existentes. A terceira proposta somente faz uso de sumários automáticos para construir o conjunto de sumários de referência, seguindo um critério similar ao método da pirâmide. Segundo esse critério, são consideradas informações relevantes àquelas que aparecem em mais sumários automáticos, e os sumários que possuam mais dessas informações relevantes serão os novos sumários de referência. As avaliações de Louis e Nenkova mostraram que esses métodos têm um comportamento similar aos métodos que usam sumários de referência na íntegra, tais como Rouge. Cabe destacar também que esses métodos apenas avaliam a informatividade dos sumários.

Neste trabalho de doutorado, usar-se-á medida Rouge para a avaliação dos sumários por ser à medida mais usada na área, o que facilita a comparação com outros métodos de sumarização do estado da arte.