VoxCeleb2是一个大规模的说话人识别数据集,从开源媒体中自动收集而来。该数据集包含超过100万个话语片段,由6000多名不同背景的说话者提供。这些语音片段是在自然场景中收集的,因此包含了各种现实世界的噪音,如笑声、交谈声、频道效果和音乐等。