什么是HelpSteer2
HelpSteer2数据集是由NVIDIA发布的一个开源数据集,旨在训练能够与人类偏好对齐的先进奖励模型,以便将大型语言模型(LLMs)与人类偏好对齐。该数据集包含10,681个提示-响应对,这些对在五个属性上使用李克特量表进行了标注。
HelpSteer2数据集的主要目的是提供高质量的偏好数据集,这对于训练能够有效指导LLMs生成与人类偏好一致的高质量响应的奖励模型至关重要。高质量的偏好数据对于使AI系统与人类价值观对齐至关重要,但现有的数据集往往是专有的或质量不一致。HelpSteer2通过提供大量经过精细标注的提示-响应对,帮助LLMs更好地理解和执行与人类偏好一致的任务。
HelpSteer2数据集地址:https://huggingface.co/datasets/nvidia/HelpSteer2