数据集 | AIUG

MNBVC数据集

MNBVC（Massive Never-ending BT Vast Chinese corpus）是一个面向自然语言处理（NLP）研究的超大规模中文语料数据集，旨在为中文大模型训练提供多样化的高质量文本资源。

Multimodal C4数据集

MultimodalC4的数据集是一个开放的、10亿规模的、与文本交错的图像语料库，其中包含了585M[…]

Common Crawl数据集

Common Crawl 是一个大型的非营利性网络爬虫项目，旨在抓取互联网上的网页数据并提供开源下载。这个数据集覆盖了广泛的领域，包括新闻、法律、维基百科和通用网络文档等。

Custom Diffusion数据集

Custom Diffusion数据集是与Custom Diffusion技术相关的数据集，主要用于支持和实现多概念定制化的文本到图像生成模型。

LibGen数据集

LibGen数据集（LibraryGenesis数据集）是一个由俄罗斯科学家于2008年创建的数字图书馆，[…]

“万卷·丝路”多语言预训练语料库

“万卷·丝路”多语言预训练语料库是由上海人工智能实验室联合大模型语料数据联盟成员共同发布的一个高质量多语言预训[…]

NEXET数据集

NEXET数据集是由以色列公司Nexar发布的一个用于自动驾驶技术发展的数据集。该数据集包含来自全球80个国家的超过5万张照片，展示了不同天气和时间条件下道路状况。

GSM8K数据集

GSM8K数据集是一个由OpenAI团队创建的高质量、语言多样化的小学数学单词问题数据集，包含8500个问题。[…]

WorldClim

WorldClim数据集是一个全球性的气候数据集，由Robert Hijmans和Susan Cameron等人于2005年开发，基于ANUSPLIN插值法，整合了大量国家和区域尺度的气象数据。

HD-VILA-100M数据集

HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集，由微软亚洲研究院的研究人员开发。

Emilia数据集

Emilia数据集是一个大规模、多语言和多样化的语音生成数据集，旨在支持大规模语音生成研究。

CelebA-HQ数据集

CelebA-HQ数据集是CelebA数据集的高质量版本，由30,000张分辨率为1024x1024的人脸图像组成.

CelebA数据集

CelebA数据集，全称为CelebFaces Attributes Dataset，是由中国香港中文大学多媒体实验室发布的一个大规模人脸属性数据集。

GarDiff

GarDiff是一种创新的虚拟试穿技术，旨在通过生成高保真且细节丰富的试穿图像来提升在线试穿体验。

DressCode数据集

DressCode数据集是一个用于图像基础虚拟试衣的高分辨率多类别数据集。

CelebV-Text数据集

CelebV-Text数据集是一个大规模、高质量、多样化的人脸文本-视频数据集，旨在促进人脸文本到视频生成任务的研究。该数据集包含70,000个野外面部视频剪辑，每个视频剪辑都配有20个文本描述。

SA-1B数据集

SA-1B 数据集，全称为Segment Anything 1 Billion，是一个大规模的图像分割数据集，旨在为通用对象分割模型提供训练数据。

DreamBooth数据集

DreamBooth数据集是一个用于训练扩散模型以识别和生成特定个体图像的数据集。

Fashion-MNIST数据集

Fashion-MNIST数据集是由德国Zalando公司提供的一种服饰物品图像数据集，旨在替代经典的MNIS[…]

DragBench数据集

DragBench数据集是一个用于评估交互式点基图像编辑方法性能的基准数据集。

3D-FRONT数据集

什么是3D-FRONT数据集3D-FRONT数据集是一个大规模且综合性的合成室内场景数据集，旨在提供高质量的[…]

LAION-5B

LAION-5B是一个大规模的多模态数据集，用于研究目的，包含约58.5亿个图像-文本对。这些数据对是通过CLIP模型过滤的，其中23亿对包含英语文本，22亿对来自超过100种其他语言，其余12.7亿对则包含无法明确归类于某一语言的文本。

WebVid10M数据集

WebVid10M数据集是一个大型的文本-视频配对数据集，包含大约1000万个视频及其对应的文本描述。该数据集[…]

Objaverse-XL

Objaverse-XL

Objaverse数据集

Objaverse数据集是一个包含超过80万个注释3D物体的庞大数据集，每个3D模型都附有描述性标题、标签和动画。

OpenXD-RenFace数据集

OpenXD-RenFace是唯一的大规模全头且包含丰富细粒度发型的人头数据集，同时包含音素均衡的话术视频。

THuman数据集

THHuman数据集是一个用于3D人体重建的研究数据集，它利用了DoubleFusion技术收集了230个人物的序列，并从中挑选了7000个数据。

DarkFace数据集

DarkFace数据集（DARK FACE dataset）是一个专门用于低光照条件下的面部检测的数据集。该数据集包含6000张真实世界中的低光照图像，这些图像在夜间拍摄于教学楼、街道、桥梁、立交桥和公园等地点，并且所有图像都标注了人脸的边界框，作为主要的训练和/或验证集。此外，还提供了9000张未标注的低光照图像，以及一个独特的789对低光照图像配对集。

DPED数据集

DPED数据集（Deep Photo Enhancement Dataset）是一个大型的图像数据集，主要用于深度学习模型的训练和验证。该数据集包含从不同设备拍摄的真实照片，包括三部不同的手机和一台高端反光相机。

SICE数据集

SICE数据集（Single Image Contrast Enhancement）是一个专门用于单张图像对比度增强的数据集。该数据集包含多个部分，其中Part1和Part2是主要的部分，Lowlight_img文件夹内为低照度图像，Lowlight_img_label文件夹内为对应的正常光图像。