HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集,由微软亚洲研究院的研究人员开发。
CelebV-Text数据集是一个大规模、高质量、多样化的人脸文本-视频数据集,旨在促进人脸文本到视频生成任务的研究。该数据集包含70,000个野外面部视频剪辑,每个视频剪辑都配有20个文本描述。
The Pile是一个由EleutherAI提供的825 GiB大小的多样化、开源语言建模数据集,它由22个较小的、高质量的数据集组合而成。这些子集包括书籍、新闻、维基百科、GitHub代码、科学论文和对话记录等,每个子集都具有其独特性。
HelpSteer2数据集是由NVIDIA发布的一个开源数据集,旨在训练能够与人类偏好对齐的先进奖励模型,以便将大型语言模型(LLMs)与人类偏好对齐。该数据集包含10,681个提示-响应对,这些对在五个属性上使用李克特量表进行了标注。
TMDB 5000 Movie Dataset 是一个由 Kaggle 平台上的项目 TMDB (The Movie Database) 提供的数据集,包含约4803部电影的信息。