ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估文本摘要质量的自动评价指标,特别适用于文本摘要、机器翻译和问答生成等任务。其核心思想是通过计算生成摘要与参考摘要之间的相似度来衡量摘要的质量,主要关注召回率(recall),即生成摘要中包含参考摘要关键信息的比例。
ROUGE包括多种变体,每种变体都有其特定的计算方式和应用场景:
- ROUGE-N:基于n-gram的召回率计算,适用于NMT(神经网络机器翻译)评估。它通过比较候选摘要中的n-gram数量与参考摘要中共有的n-gram最大重叠数来进行量化评估。
- ROUGE-L:使用最长公共子序列(Longest Common Subsequence, LCS)计算,考虑了机器译文和参考译文之间的最长公共子序列。它综合了精确度和召回率,更关注召回率,适用于提取式摘要的评估。
- ROUGE-W:ROUGE-L的改进版,引入了加权最长公共子序列(Weighted LCS),对连续正确翻译的n-gram给予更高的分数,以区分高质量和低质量的翻译。
- ROUGE-S:允许跳过某些单词(skip),适用于更灵活的评估,如跳二元组(skip-bigram)共现统计。
- ROUGE-SU4:结合了ROUGE-S和ROUGE-4的特点,同时考虑跳二元组和四元组的共现统计。
ROUGE指标通过统计生成摘要与参考摘要之间的重叠单位(如n-gram、词序列和词对)来衡量摘要质量,是一种灵活而精准的评估工具,广泛应用于大规模自动摘要评估中。然而,ROUGE也有其局限性,例如在处理语义层次上的匹配时不够灵活,无法完全捕捉人类读者的感受
声明:文章来源于网络,如有侵权请联系删除!