VoxCeleb简介
VoxCeleb数据集是一个大型的人声识别数据集,主要用于语音识别和声纹识别等领域。该数据集由来自YouTube视频中的约1,251位名人的约10万段语音组成。这些数据集基本上是性别平衡的,其中男性占55%。VoxCeleb的数据集特性包括:它是一个完全的集外数据集,所有的音频都是从YouTube视频中提取的;数据集是完全真实的英文语音,与文本无关;数据集中的说话人总数为1,251名,句子总数达到153,516条,时长总数也有详细记录。
VoxCeleb数据集分为两个部分:VoxCeleb1和VoxCeleb2。VoxCeleb1包含了1211个说话人的超过10万段语音,而VoxCeleb2则包含了5994个说话人的超过一百万条话语。这两个数据集之间的说话人不重叠,因此在训练时可以混合使用一个或两个部分的数据。
牛津大学发布并维护的VoxCeleb数据集是全球规模最大、标注最完备的开源声纹数据集之一,其数据来源多样且都来自无约束场景,非常考验算法的实战水平。这个数据集的特点是多样性和无约束场景的特点,使得它成为了一个非常有用的数据集,尤其是在声纹识别领域。
下载地址:https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
下载地址:https://huggingface.co/datasets/ProgramComputer/voxceleb
下载地址:https://mm.kaist.ac.kr/datasets/voxceleb/