HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集,由微软亚洲研究院的研究人员开发。
Emilia数据集是一个大规模、多语言和多样化的语音生成数据集,旨在支持大规模语音生成研究。
VoxCeleb2是一个大规模的说话人识别数据集,从开源媒体中自动收集而来。该数据集包含超过100万个话语片段,由6000多名不同背景的说话者提供。这些语音片段是在自然场景中收集的,因此包含了各种现实世界的噪音,如笑声、交谈声、频道效果和音乐等。
VoxCeleb数据集是一个大型的人声识别数据集,主要用于语音识别和声纹识别等领域。
HDTF数据集是一个高清晰度说话人脸数据集,主要用于说话人脸的生成和分析。
MEAD数据集是一个专注于情感谈话头部视频的大规模、高质量视听数据集。它包含了带有情绪类别和强度注释的高质量谈话头部视频,