Audiobox - 是一款Meta推出的AI声音生成模型

Audiobox

Audiobox 是一款Meta推出的AI声音生成模型，Audiobox是基于Meta推出的Voicebox AI模型，能生成各种环境音、自然对话语音能够同时接收语音及文字输入，并整合了音频生成和编辑能力，……

标签：AI声音生成 AI音频生成 Audiobox

链接直达手机查看

Audiobox介绍

Audiobox 是一款Meta推出的AI声音生成模型，Audiobox是基于Meta推出的Voicebox AI模型，能生成各种环境音、自然对话语音能够同时接收语音及文字输入，并整合了音频生成和编辑能力，用户可同时使用语音及文字描述，让这款模型生成所需的音频。

在可控性方面，Audiobox展现了前所未有的性能，其质量和相关性超过了以前的模型，如AudioLDM2、VoiceLDM和TANGO。它还可以进行音频填充，允许用户在音频片段中插入或修改音效。

为了解决潜在的滥用问题，如声音模仿，Audiobox包括了安全功能，如自动音频水印，这在音频中嵌入了一种不可察觉的信号，以追踪其来源，以及在其交互式演示中的声音验证功能，以防止模仿。

1、音频生成：能生成声音和音效，结合声音输入和文本提示。

2、先进控制：提供高度可控性，超越了以前的模型（如AudioLDM2, VoiceLDM, TANGO）。

3、声景生成：能够使用自然语言提示来描述和生成声景，例如“河流奔流和鸟鸣”。

4、声音编辑：可以用于剪切和再生成音频段落，插入声音效果，例如“雨中的狗叫声”。

5、安全措施：包括自动音频水印和声音验证功能，以防止滥用和模仿。

6、研究和开发：目前主要面向研究人员和学术机构。

MooER是摩尔线程公司开发的一款音频理解大模型，是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。

天工SkyMusic是昆仑万维推出的一款AI音乐生成大模型，它是基于昆仑万维的「天工3.0」超级大模型打造。

Stable Audio Open是一个基于文本的音频生成模型，能够根据简单的文本提示生成长达47秒的高质量音频数据。无论是鼓点、乐器旋律、环境声音还是音效，它都能轻松应对。

MARS5-TTS是一款由CAMB.AI公司开发的开源语音合成模型，能够将文本转化为逼真的语音

多语言语音合成、声音克隆、文本和音频处理技术，可以把任意一段音频或者视频，快速翻译为包括中文、葡萄牙语、日语等在内的29种语言，同时保留原语音者的音色特征和情感

Seed-VC是一种基于SEED-TTS架构的开源声音转换模型，能够实现零样本的声音克隆和转换。