Amphion | AIUG

AI音频工具 AI开源项目 AI语音识别（音转文） AI配音合成（文转音，语音克隆） AI音乐创作（歌曲生成，风格转换，音频分离） AI音频工具语音模型

Amphion

链接直达手机查看

Amphion介绍

Amphion是一个用于音频、音乐和语音生成的开源工具包，不论是搞语音识别应用，还是音频编辑、音乐合成，Amphion 都是不可多得的利器。Amphion 统一了开源数据集的数据预处理，包括AudioCaps、LibriTTS、LJSpeech、M4Singer、Opencpop、OpenSinger、SVCC、VCTK等，加上开源的特性，可以相信，Amphion 将在音频处理领域崭露头角，大放异彩，并且为开发者们带来更多创意和可能性。

Amphion主要功能：

1、文本到语音（TTS）：将文本转换为口语化的语音。

应用：用于制作语音助手、自动语音回复系统、为视障人士阅读文本等。

2、歌声合成（SVS）：创造虚拟歌手的声音，可以从文本或旋律生成歌声。

应用：用于音乐制作、虚拟偶像创作等。

3、声音转换（VC）：改变一个人的声音，使其听起来像另一个人。

应用：用于娱乐、声音设计、匿名通信等。

4、歌声转换（SVC）：将一首歌的演唱者的声音转换成另一个演唱者的声音。

应用：用于音乐制作、个性化音乐体验等。

5、文本到音频（TTA）：不仅将文本转换为语音，还可以转换成其他类型的音频，如音效或音乐片段。

应用：用于创造音效、音乐片段、音频故事等。

6、文本到音乐（TTM）：从文本描述中生成音乐。应用：用于自动音乐创作、根据情感或故事情节创作音乐等。

Amphion主要特点：

模型支持：该工具包支持多种模型和架构，如FastSpeech2、VITS、Vall-E、NaturalSpeech2等，用于不同的音频生成任务。

声码器支持：Amphion 支持多种神经声码器，包括基于GAN的声码器（如MelGAN、HiFi-GAN）、基于流的声码器（如WaveGlow）、基于扩散的声码器（如Diffwave）等。

数据集支持：Amphion 统一了开源数据集的数据预处理，支持多种数据集，如AudioCaps、LibriTTS、LJSpeech等。

Amphion 的应用场景

1. 语音识别应用
Amphion 的语音识别能力非常强大，不论是搭智能助手、搞语音搜索还是搞语音命令，都能游刃有余。

2. 音频编辑和处理
你想要的音频处理功能，Amphion 一应俱全。剪辑、混音、加特效，通通搞定。音频制作、广播、影视后期处理啥的都可以玩玩。

3. 唱歌应用和音乐合成
Amphion 的音频合成功能超赞，让你可以轻松搞定唱歌应用和音乐合成。给用户提供自动伴奏，实现声音合成，嗨起来！

如何使用 Amphion？

想要试试 Amphion，就去官方 GitHub 仓库下载最新的源代码和文档吧。文档里有详细的说明，还有例子代码，简直手把手教你怎么搞。要是遇到问题，社区论坛就是你最好的朋友，别客气，多问多学。快去试试吧，玩出新花样！

Github：https://github.com/open-mmlab/Amphion

论文：https://https://arxiv.org/abs/2312.09911

HuggingFace演示：https://huggingface.co/amphion

相关导航

Anim400K

针对视频自动配音设计的数据集

TTSMarker

TTSMarker是一个免费的、用户友好的文本转语音工具，可以让用户轻松地将文字转换成语音。用户可以自定义语音的风格、速度、音量和情感，并免费下载音频文件。

魔音工坊

魔音工坊是一款由北京小问智能科技有限公司开发的AI配音软件，旨在为用户提供一站式AI配音服务。它广泛应用于短视频、有声书、新闻播报、广告宣传等多种场景，能够将输入或粘贴的文本一键转换为音频。

IGPair数据集

IGPair数据集是一个大规模的互动服装配对数据集，包含超过30万对服装和穿戴图像，旨在解决虚拟试衣和人像合成领域中数据不足的问题。

LibreChat

LibreChat 是一个开源的、增强版的 ChatGPT 克隆平台，集成了多种先进的人工智能技术。它提供了与 ChatGPT 类似的用户界面，并且支持多种 AI 模型，包括 OpenAI、GPT-4 Vision、Bing、Anthropic、OpenRouter 和 Google Gemini 等。

V2A

V2A（Video-to-Audio）是由谷歌DeepMind发布的一项视频转音频技术，旨在自动为视频生成同步的音频。