说话人识别数据集

VoxCeleb2是一个大规模的说话人识别数据集，从开源媒体中自动收集而来。该数据集包含超过100万个话语片段，由6000多名不同背景的说话者提供。这些语音片段是在自然场景中收集的，因此包含了各种现实世界的噪音，如笑声、交谈声、频道效果和音乐等。