VoiceCraft - 旨在实现零样本语音编辑和文本到语音转换

AI音频工具 AI配音合成（文转音，语音克隆） AI音频工具

VoiceCraft

VoiceCraft 是一个开源项目，由 Jason Peng 等人开发，旨在实现零样本（Zero-Shot）语音编辑和文本到语音（Text-to-Speech, TTS）转换。

链接直达手机查看

VoiceCraft简介

VoiceCraft 是一个开源项目，由 Jason Peng 等人开发，旨在实现零样本（Zero-Shot）语音编辑和文本到语音（Text-to-Speech, TTS）转换。

该项目在野生数据集上，包括有声书、互联网视频和播客等，都取得了最先进的性能。VoiceCraft基于一个基于令牌的神经编解码器语言模型，能够通过仅仅几秒钟的参考音频来克隆或编辑一个未见过的语音。

项目提供了三种运行推理（Inference）的方法：使用Google Colab、Docker容器或直接在安装了所有必要依赖的环境中运行。项目的最新更新包括了模型权重的上传，以及对特定数据集进行微调后的性能提升信息。

开源地址：https://github.com/jasonppy/VoiceCraft

Seed-VC是一种基于SEED-TTS架构的开源声音转换模型，能够实现零样本的声音克隆和转换。

FunAudioLLM是一款致力于提升人类与大型语言模型（LLMs）之间自然语音交互的先进模型。它正以前所未有的方式，重塑着人与机器之间的语音交互。

输入文字转语音,40多位智能主播ai 配音

Whisper是OpenAI开发的一个自动语音识别（ASR）系统。它基于从网络上收集的680,000小时的多语种和多任务监督数据进行训练，具有极高的准确性和适应性。

Seed-Music是一个由字节跳动研发的音乐生成模型，用户可以通过输入多模态数据（如文本描述、音频参考、乐谱、声音提示等）来生成音乐，并且提供了方便的后期编辑功能，比如修改歌词或旋律。

Wav2Lip技术通过深度学习模拟预测唇部运动，并应用于唇部区域，然后通过音频特征和视频进行一一对应和合成，实现了高精度的语音驱动唇部动作同步。