VoxCeleb - 一个大型的人声识别数据集

AI数据集 AI数据集语音识别处理

VoxCeleb

VoxCeleb数据集是一个大型的人声识别数据集，主要用于语音识别和声纹识别等领域。

标签：人声识别数据集

链接直达手机查看

VoxCeleb简介

VoxCeleb数据集是一个大型的人声识别数据集，主要用于语音识别和声纹识别等领域。该数据集由来自YouTube视频中的约1,251位名人的约10万段语音组成。这些数据集基本上是性别平衡的，其中男性占55%。VoxCeleb的数据集特性包括：它是一个完全的集外数据集，所有的音频都是从YouTube视频中提取的；数据集是完全真实的英文语音，与文本无关；数据集中的说话人总数为1,251名，句子总数达到153,516条，时长总数也有详细记录。

VoxCeleb数据集分为两个部分：VoxCeleb1和VoxCeleb2。VoxCeleb1包含了1211个说话人的超过10万段语音，而VoxCeleb2则包含了5994个说话人的超过一百万条话语。这两个数据集之间的说话人不重叠，因此在训练时可以混合使用一个或两个部分的数据。

牛津大学发布并维护的VoxCeleb数据集是全球规模最大、标注最完备的开源声纹数据集之一，其数据来源多样且都来自无约束场景，非常考验算法的实战水平。这个数据集的特点是多样性和无约束场景的特点，使得它成为了一个非常有用的数据集，尤其是在声纹识别领域。

下载地址：https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
下载地址：https://huggingface.co/datasets/ProgramComputer/voxceleb
下载地址：https://mm.kaist.ac.kr/datasets/voxceleb/

相关导航

HDTF

HDTF数据集是一个高清晰度说话人脸数据集，主要用于说话人脸的生成和分析。

Multimodal C4数据集

MultimodalC4的数据集是一个开放的、10亿规模的、与文本交错的图像语料库，其中包含了585M[…]

LabelU

LabelU是一款开源的多模态数据标注工具，专为处理图像、视频和音频数据而设计。它提供了丰富的标注功能，适用于机器学习和人工智能领域的数据预处理。

Objaverse数据集

Objaverse数据集是一个包含超过80万个注释3D物体的庞大数据集，每个3D模型都附有描述性标题、标签和动画。

HelpSteer2

HelpSteer2数据集是由NVIDIA发布的一个开源数据集，旨在训练能够与人类偏好对齐的先进奖励模型，以便将大型语言模型（LLMs）与人类偏好对齐。该数据集包含10,681个提示-响应对，这些对在五个属性上使用李克特量表进行了标注。

Label Studio

Label Studio是一款开源的数据标注工具，广泛应用于机器学习和数据科学领域。它支持多种类型的数据，包括图像、音频、文本、视频和时间序列等。