HelpSteer2数据集是由NVIDIA发布的一个开源数据集,旨在训练能够与人类偏好对齐的先进奖励模型,以便将大型语言模型(LLMs)与人类偏好对齐。该数据集包含10,681个提示-响应对,这些对在五个属性上使用李克特量表进行了标注。