Fugatto的新型人工智能音频模型,该模型能够根据文本提示或音频输入生成音乐和音效
Seed-VC是一种基于SEED-TTS架构的开源声音转换模型,能够实现零样本的声音克隆和转换。
FireRedTTS是一个由小红书技术团队FireRed开发的开源文本转语音(TTS)系统,基于大语言模型(LLM)构建。该系统旨在为用户提供高质量的语音合成服务,并具有丰富的标点符号处理能力。
VideoLingo 是一款一站式视频翻译本地化配音工具,旨在生成 Netflix 级别的高质量字幕,告别生硬机翻,告别多行字幕,还能加上高质量的配音,让全世界的知识能够跨越语言的障碍共享。
EzAudio是一个由腾讯AI实验室和约翰霍普金斯大学联合开发的文本到音频(T2A)生成模型。
魔音工坊是一款由北京小问智能科技有限公司开发的AI配音软件,旨在为用户提供一站式AI配音服务。它广泛应用于短视频、有声书、新闻播报、广告宣传等多种场景,能够将输入或粘贴的文本一键转换为音频。
Linly-Dubbing是一款多语言 AI 配音及视频翻译工具,基于 YouDub-webui 的灵感进行了创新性的拓展和优化。
Easy-Voice-Toolkit 是一个功能丰富的开源音频处理项目,它集成了多种音频处理技术,为用户提供一站式的音频解决方案。
Video-Foley是由韩国高等科学技术院(KAIST)的研究团队开发的一个视频到声音的生成系统,利用深度学习技术,通过分析视频内容自动生成与之同步的声音效果,极大地简化了声音设计的流程。
EmotiVoice是一款由网易有道开发的开源文本到语音(TTS)引擎,支持中英文双语,并包含超过2000种不同的音色。其最显著的功能是情感合成功能,能够根据文本内容生成具有快乐、兴奋、悲伤、愤怒等多种情感的语音。
EmotiVoice-Plus是升级版文本转语音引擎,在原有网易有道EmotiVoice的基础上,增加了支持生成多人故事剧本的功能。
FunAudioLLM是一款致力于提升人类与大型语言模型(LLMs)之间自然语音交互的先进模型。它正以前所未有的方式,重塑着人与机器之间的语音交互。
CosyVoice是一个由阿里通义实验室开源的语音生成模型,专注于自然语音生成。它支持多语言、音色和情感控制,能够生成多种语言的自然流畅语音。
FoleyCrafter是一个基于文本的视频到音频生成框架,可以生成与输入视频在语义上相关并且在时间上同步的高质量音频。
ToucanTTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的一个高级文本转语音(Text-to-Speech, TTS)工具箱
MARS5-TTS是一款由CAMB.AI公司开发的开源语音合成模型,能够将文本转化为逼真的语音
Auffusion 模型是由北京邮电大学的研究团队提出的一种基于扩散模型和大语言模型的文本到音频(Text-to-Audio,TTA) 系统,
V2A(Video-to-Audio)是由谷歌DeepMind发布的一项视频转音频技术,旨在自动为视频生成同步的音频。
TextToSpeech 是一款完全免费的在线 AI 文本转语音工具,它允许用户将文本转换成听起来非常自然的高质量语音,并且可以任意下载。
Seed-TTS是字节跳动团队推出的新型语音生成模型。该模型基于自回归Transformer架构,能够生成接近人类语音的自然且富有表现力的语音。Seed-TTS支持语音内容和说话速度的编辑,用户可以灵活调整生成的语音,以适应不同的应用场景。
ChatTTS是一款专为对话场景设计的文本转语音(TTS)模型,旨在提供自然流畅的语音合成体验。
Tango 2是一款新型文本到音频生成模型,它通过直接偏好优化(Direct Preference Optimization, DPO),显著提升了音频输出与输入文本的匹配度。
Fish Speech 是由 fishaudio 组织开发的开源项目,旨在提供一个高效、先进的文本到语音转换工具。
OpenVoice是一个由MyShell开发的即时语音克隆AI工具,它使用短音频片段来复制声音,并支持多语言。用户可以精确控制声音风格和情感,包括口音、节奏、停顿和语调等方面。
Parler-TTS是一个高质量文本到语音(TTS)模型,它能够生成高质量且听起来非常自然的语音。
Bark AI是一个开源的文本转语音(TTS)模型,由Suno公司开发。它基于转换器(Transformer)架构,能够生成高度逼真的多语言语音、音乐、背景噪音以及非语言交流声音,如笑、叹息和哭泣等。
VoiceCraft 是一个开源项目,由 Jason Peng 等人开发,旨在实现零样本(Zero-Shot)语音编辑和文本到语音(Text-to-Speech, TTS)转换。
Convai是一个专为虚拟世界设计的对话人工智能平台,旨在通过最先进的生成式对话人工智能技术,为游戏或应用中的角色赋予人类般的对话能力。
Voice Engine是OpenAI开发的一款音频大模型,主要功能是从15秒的音频样本和文本输入中生成自然且接近原说话者的声音。
Wav2Lip技术通过深度学习模拟预测唇部运动,并应用于唇部区域,然后通过音频特征和视频进行一一对应和合成,实现了高精度的语音驱动唇部动作同步。