语音合成编辑器
高拟真度、灵活配置的语音合成产品,打通人机交互的闭环,让应用逼真发声。多种音色可供选择,并提供调节语速、语调、音量等功能
MooER是摩尔线程公司开发的一款音频理解大模型,是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。
EzAudio是一个由腾讯AI实验室和约翰霍普金斯大学联合开发的文本到音频(T2A)生成模型。
Voicemod是一个免费的AI语音变声器工具
MARS5-TTS是一款由CAMB.AI公司开发的开源语音合成模型,能够将文本转化为逼真的语音
Whisper是OpenAI开发的一个自动语音识别(ASR)系统。它基于从网络上收集的680,000小时的多语种和多任务监督数据进行训练,具有极高的准确性和适应性。
Tango 2是一款新型文本到音频生成模型,它通过直接偏好优化(Direct Preference Optimization, DPO),显著提升了音频输出与输入文本的匹配度。