自然语言处理

S1K数据集概述数据集定义及来源S1K数据集是由李飞飞团队构建的一个包含1000个问题及其推理轨迹的小型数[…]

MultimodalC4的数据集是一个开放的、10亿规模的、与文本交错的图像语料库，其中包含了585M[…]

Common Crawl 是一个大型的非营利性网络爬虫项目，旨在抓取互联网上的网页数据并提供开源下载。这个数据集覆盖了广泛的领域，包括新闻、法律、维基百科和通用网络文档等。

Custom Diffusion数据集是与Custom Diffusion技术相关的数据集，主要用于支持和实现多概念定制化的文本到图像生成模型。

“万卷·丝路”多语言预训练语料库是由上海人工智能实验室联合大模型语料数据联盟成员共同发布的一个高质量多语言预训[…]

GSM8K数据集是一个由OpenAI团队创建的高质量、语言多样化的小学数学单词问题数据集，包含8500个问题。[…]

WorldClim数据集是一个全球性的气候数据集，由Robert Hijmans和Susan Cameron等人于2005年开发，基于ANUSPLIN插值法，整合了大量国家和区域尺度的气象数据。

HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集，由微软亚洲研究院的研究人员开发。

CelebV-Text数据集是一个大规模、高质量、多样化的人脸文本-视频数据集，旨在促进人脸文本到视频生成任务的研究。该数据集包含70,000个野外面部视频剪辑，每个视频剪辑都配有20个文本描述。

The Pile是一个由EleutherAI提供的825 GiB大小的多样化、开源语言建模数据集，它由22个较小的、高质量的数据集组合而成。这些子集包括书籍、新闻、维基百科、GitHub代码、科学论文和对话记录等，每个子集都具有其独特性。

HelpSteer2数据集是由NVIDIA发布的一个开源数据集，旨在训练能够与人类偏好对齐的先进奖励模型，以便将大型语言模型（LLMs）与人类偏好对齐。该数据集包含10,681个提示-响应对，这些对在五个属性上使用李克特量表进行了标注。

TMDB 5000 Movie Dataset 是一个由 Kaggle 平台上的项目 TMDB (The Movie Database) 提供的数据集，包含约4803部电影的信息。