AI数据集

AI中文数据集

没有内容

AI数据集平台

天池数据集平台

天池数据集平台是由阿里云推出的，旨在为科研人员和开发者提供高质量、脱敏后的数据集和计算资源的开放平台。

OpenDataLab

OpenDataLab是一个由上海人工智能实验室发布的开源数据平台，旨在为大型AI模型提供高质量的开放数据集支持。

Papers with Code

Papers with Code是一个集合了机器学习论文、代码实现、以及大量数据集的平台。它提供了3000+个机器学习数据集，覆盖了数百个任务和多种语言，旨在促进机器学习领域的研究和发展。

CVonline: Image Databases

CVonline: Image Databases是一个专门整理的图像和视频数据库，旨在为视觉研究和算法评估提供支持。该数据库涵盖了多个领域的数据集，包括但不限于动作数据库、农业、属性识别、自主驾驶、生物医学以及相机等方面

千言中文数据集

千言数据集不仅提供了一站式的数据集浏览、整理、下载和评测的科研体验，还通过收集和整理不同类型的中文开源数据集，为自然语言处理技术的研究和发展提供了重要的数据支持。

极市公开数据集

极市公开数据集简介极市公开数据集主要集中在计算机视觉领域，为开发者提供了大量高质量的真实场景数据集，以帮助他[…]

百度飞桨公共数据集

百度飞桨提供了大量的开放数据集，这些数据集覆盖了机器学习和深度学习的各大领域，包括计算机视觉、语音、自然语言处理等。飞桨的数据集不仅数量众多，而且涵盖了多个应用方向，如文本分类、序列标注、语义匹配等NLP任务，以及问答、翻译、对话以及信息抽取等自然语言处理应用的多个方向。

Kaggle

Kaggle是一个专注于数据科学领域的在线学习平台，它被广泛认为是世界领先的数据科学学习平台之一。

帕依提提

帕依提提是一个人工智能数据科学社区，平台以“数据+模型+空间”为服务核心，为开发者和中小企业提供全链条的AI基础服务设施

数据标注平台

Label Studio

Label Studio是一款开源的数据标注工具，广泛应用于机器学习和数据科学领域。它支持多种类型的数据，包括图像、音频、文本、视频和时间序列等。

LabelU

LabelU是一款开源的多模态数据标注工具，专为处理图像、视频和音频数据而设计。它提供了丰富的标注功能，适用于机器学习和人工智能领域的数据预处理。

LabelGPT

LabelGPT是一款自动化数据标注平台，旨在帮助机器学习团队快速生成大量带标签的数据。它采用多个基础模型的组合，实现了zero-shot标注，使用户能够通过上传图像并给出类别名称来自动找到图像中的对象，并在几分钟内生成带有高置信度分数的标签。

LabelMe

LabelMe是MIT开源的数据标注平台，这是一个由麻省理工学院（MIT）的计算机科学和人工智能实验室（CSAIL）研发的图像标注工具，旨在帮助用户为图像、视频等数据添加标签，以供机器学习模型训练使用。

机器视觉处理

more+

HD-VILA-100M数据集

HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集，由微软亚洲研究院的研究人员开发。

CelebA-HQ数据集

CelebA-HQ数据集是CelebA数据集的高质量版本，由30,000张分辨率为1024x1024的人脸图像组成.

CelebA数据集

CelebA数据集，全称为CelebFaces Attributes Dataset，是由中国香港中文大学多媒体实验室发布的一个大规模人脸属性数据集。

RELLISUR数据集

什么是RELLISUR数据集RELLISUR数据集是一种由德国卡尔斯鲁厄理工学院和南部联邦大学共同创建的视觉[…]

RAISE数据集

RAISE数据集是一个用于数字图像取证研究的大型数据集，包含8156张高分辨率的RAW图像，这些图像未经过压缩且保证是相机原生的（即从未被处理或修改过）。

GarDiff

GarDiff是一种创新的虚拟试穿技术，旨在通过生成高保真且细节丰富的试穿图像来提升在线试穿体验。

DressCode数据集

DressCode数据集是一个用于图像基础虚拟试衣的高分辨率多类别数据集。

CelebV-Text数据集

CelebV-Text数据集是一个大规模、高质量、多样化的人脸文本-视频数据集，旨在促进人脸文本到视频生成任务的研究。该数据集包含70,000个野外面部视频剪辑，每个视频剪辑都配有20个文本描述。

SA-1B数据集

SA-1B 数据集，全称为Segment Anything 1 Billion，是一个大规模的图像分割数据集，旨在为通用对象分割模型提供训练数据。

DreamBooth数据集

DreamBooth数据集是一个用于训练扩散模型以识别和生成特定个体图像的数据集。

Fashion-MNIST数据集

Fashion-MNIST数据集是由德国Zalando公司提供的一种服饰物品图像数据集，旨在替代经典的MNIS[…]

DragBench数据集

DragBench数据集是一个用于评估交互式点基图像编辑方法性能的基准数据集。

3D-FRONT数据集

什么是3D-FRONT数据集3D-FRONT数据集是一个大规模且综合性的合成室内场景数据集，旨在提供高质量的[…]

WebVid10M数据集

WebVid10M数据集是一个大型的文本-视频配对数据集，包含大约1000万个视频及其对应的文本描述。该数据集[…]

Objaverse-XL

Objaverse-XL

Objaverse数据集

Objaverse数据集是一个包含超过80万个注释3D物体的庞大数据集，每个3D模型都附有描述性标题、标签和动画。

OpenXD-RenFace数据集

OpenXD-RenFace是唯一的大规模全头且包含丰富细粒度发型的人头数据集，同时包含音素均衡的话术视频。

THuman数据集

THHuman数据集是一个用于3D人体重建的研究数据集，它利用了DoubleFusion技术收集了230个人物的序列，并从中挑选了7000个数据。

DarkFace数据集

DarkFace数据集（DARK FACE dataset）是一个专门用于低光照条件下的面部检测的数据集。该数据集包含6000张真实世界中的低光照图像，这些图像在夜间拍摄于教学楼、街道、桥梁、立交桥和公园等地点，并且所有图像都标注了人脸的边界框，作为主要的训练和/或验证集。此外，还提供了9000张未标注的低光照图像，以及一个独特的789对低光照图像配对集。

DPED数据集

DPED数据集（Deep Photo Enhancement Dataset）是一个大型的图像数据集，主要用于深度学习模型的训练和验证。该数据集包含从不同设备拍摄的真实照片，包括三部不同的手机和一台高端反光相机。

SICE数据集

SICE数据集（Single Image Contrast Enhancement）是一个专门用于单张图像对比度增强的数据集。该数据集包含多个部分，其中Part1和Part2是主要的部分，Lowlight_img文件夹内为低照度图像，Lowlight_img_label文件夹内为对应的正常光图像。

ExDark数据集

什么是ExDark数据集ExDark数据集是一个专为促进弱光环境下的物体检测和图像增强研究而设计的数据集。该[…]

HQ-Edit数据集

HQ-Edit 是由加州大学圣克鲁斯分校的研究团队创建的一个高质量、基于指令的图像编辑数据集。

Handfit-3K数据集

Handfit-3K数据集是一个专门用于虚拟试穿（Virtual Try-on）的公开数据集，主要用于任意手部姿势遮挡情况下的手部遮挡场景。该数据集由VTON-HandFit项目团队自行收集，并在多个评估中表现出色。

自然语言处理

HD-VILA-100M数据集

HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集，由微软亚洲研究院的研究人员开发。

CelebV-Text数据集

The Pile

The Pile是一个由EleutherAI提供的825 GiB大小的多样化、开源语言建模数据集，它由22个较小的、高质量的数据集组合而成。这些子集包括书籍、新闻、维基百科、GitHub代码、科学论文和对话记录等，每个子集都具有其独特性。

HelpSteer2

HelpSteer2数据集是由NVIDIA发布的一个开源数据集，旨在训练能够与人类偏好对齐的先进奖励模型，以便将大型语言模型（LLMs）与人类偏好对齐。该数据集包含10,681个提示-响应对，这些对在五个属性上使用李克特量表进行了标注。

TMDB 5000 Movie Dataset

TMDB 5000 Movie Dataset 是一个由 Kaggle 平台上的项目 TMDB (The Movie Database) 提供的数据集，包含约4803部电影的信息。

语音识别处理

HD-VILA-100M数据集

HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集，由微软亚洲研究院的研究人员开发。

Emilia数据集

Emilia数据集是一个大规模、多语言和多样化的语音生成数据集，旨在支持大规模语音生成研究。

VoxCeleb2

VoxCeleb2是一个大规模的说话人识别数据集，从开源媒体中自动收集而来。该数据集包含超过100万个话语片段，由6000多名不同背景的说话者提供。这些语音片段是在自然场景中收集的，因此包含了各种现实世界的噪音，如笑声、交谈声、频道效果和音乐等。

VoxCeleb

VoxCeleb数据集是一个大型的人声识别数据集，主要用于语音识别和声纹识别等领域。

HDTF

HDTF数据集是一个高清晰度说话人脸数据集，主要用于说话人脸的生成和分析。

MEAD

MEAD数据集是一个专注于情感谈话头部视频的大规模、高质量视听数据集。它包含了带有情绪类别和强度注释的高质量谈话头部视频，