CIDEr(Consensus-based Image Description Evaluation)是一种用于评估图像描述生成质量的自动评价指标。其核心思想是通过计算候选描述与多个参考描述之间的n-gram(词组)重叠率,并使用TF-IDF(Term Frequency-Inverse Document Frequency)加权来衡量这些重叠率,从而评估候选描述与真实描述的相似度。
CIDEr的计算方法包括以下几个步骤:
- 将每个句子视为一个文档,计算其TF-IDF向量。
- 计算候选描述与参考描述之间的余弦相似度。
- 最终得分是所有参考描述与候选描述之间余弦相似度的平均值。
CIDEr的优点在于它能够客观地比较候选描述与真实描述的差异,无需依赖特定的特征,如内容加权、语法或显著性特征。此外,CIDEr还考虑了词汇多样性和一致性,能够更全面地评估生成文本的质量。
需要注意的是,CIDEr最初是为图像描述生成设计的,但也可以应用于其他文本生成任务,例如机器翻译。此外,为了提高评价的鲁棒性,还开发了CIDEr-D(CIDEr Defended)版本,该版本对游戏化效果更为鲁棒
声明:文章来源于网络,如有侵权请联系删除!