VoiceCraft简介
VoiceCraft 是一个开源项目,由 Jason Peng 等人开发,旨在实现零样本(Zero-Shot)语音编辑和文本到语音(Text-to-Speech, TTS)转换。
该项目在野生数据集上,包括有声书、互联网视频和播客等,都取得了最先进的性能。VoiceCraft基于一个基于令牌的神经编解码器语言模型,能够通过仅仅几秒钟的参考音频来克隆或编辑一个未见过的语音。
项目提供了三种运行推理(Inference)的方法:使用Google Colab、Docker容器或直接在安装了所有必要依赖的环境中运行。项目的最新更新包括了模型权重的上传,以及对特定数据集进行微调后的性能提升信息。
开源地址:https://github.com/jasonppy/VoiceCraft