Emilia数据集 - 是一个大规模、多语言和多样化的语音生成数据集

AI开源项目 AI开源项目 AI数据集数据集语音识别处理

Emilia数据集

Emilia数据集是一个大规模、多语言和多样化的语音生成数据集，旨在支持大规模语音生成研究。

标签：AI语音数据集 Emilia数据集语音生成数据集

链接直达手机查看

Emilia数据集是一个大规模、多语言和多样化的语音生成数据集，旨在支持大规模语音生成研究。该数据集包含超过101,000小时的高质量语音数据，涵盖中文、英文、德语、法语、日语和韩语六种语言。这些语音数据主要来源于互联网上的真实自然语音，如脱口秀、访谈、辩论、体育解说和有声书等。

Emilia数据集是全球最大的多语种语音数据集之一，具有非常高的多样性和质量，被广泛用于语音合成和语音识别技术的研究。此外，Emilia还提供了一个开源的预处理流水线Emilia-Pipe，用于将野外语音数据转换为适合语音生成注释的高质量训练数据。

Emilia数据集不仅为研究人员提供了丰富的语言资源，还促进了跨语言生成能力的发展，使得语音克隆和风格迁移等技术得以实现.

Emilia数据集相关链接：

ArXiv: https://arxiv.org/abs/2407.05361
GitHub: https://github.com/open-mmlab/Amphion/tree/main/preprocessors/Emilia
Homepage: https://emilia-dataset.github.io/Emilia-Demo-Page/
HuggingFace: https://huggingface.co/datasets/amphion/Emilia

RAISE数据集是一个用于数字图像取证研究的大型数据集，包含8156张高分辨率的RAW图像，这些图像未经过压缩且保证是相机原生的（即从未被处理或修改过）。

多模态大模型Ovis是由阿里国际AI团队开发的一款先进的多模态人工智能模型。该模型在多个领域展现出色的表现，包括数学推理问答、物体识别、文本提取和复杂任务决策等

MSTAR数据集大多是静止车辆的SAR切片图像,还提供了大幅场景SAR图像

OLMo是一个开源的语言模型和训练框架,由AI2研究院发布。它提供了完整的训练数据、代码、模型参数、评估代码等资源,使研究人员能够训练并实验大规模语言模型。

Diff3DEdit是一种基于深度学习的3D编辑方法。它通过迭代三个阶段来实现对3D对象的编辑：视图合成阶段、去畸变阶段和修复阶段。

RSOD是一个开放的目标检测数据集，用于遥感图像中的目标检测。数据集包含飞机，油箱，运动场和立交桥，以PASCAL VOC数据集的格式进行标注。