AI配音合成（文转音，语音克隆）

Fugatto

Fugatto的新型人工智能音频模型，该模型能够根据文本提示或音频输入生成音乐和音效

Seed-VC

Seed-VC是一种基于SEED-TTS架构的开源声音转换模型，能够实现零样本的声音克隆和转换。

VideoLingo

VideoLingo 是一款一站式视频翻译本地化配音工具，旨在生成 Netflix 级别的高质量字幕，告别生硬机翻，告别多行字幕，还能加上高质量的配音，让全世界的知识能够跨越语言的障碍共享。

EzAudio

EzAudio是一个由腾讯AI实验室和约翰霍普金斯大学联合开发的文本到音频（T2A）生成模型。

魔音工坊

魔音工坊是一款由北京小问智能科技有限公司开发的AI配音软件，旨在为用户提供一站式AI配音服务。它广泛应用于短视频、有声书、新闻播报、广告宣传等多种场景，能够将输入或粘贴的文本一键转换为音频。

Linly-Dubbing

Linly-Dubbing是一款多语言 AI 配音及视频翻译工具，基于 YouDub-webui 的灵感进行了创新性的拓展和优化。

Easy-Voice-Toolkit

Easy-Voice-Toolkit 是一个功能丰富的开源音频处理项目，它集成了多种音频处理技术，为用户提供一站式的音频解决方案。

Video-Foley

Video-Foley是由韩国高等科学技术院（KAIST）的研究团队开发的一个视频到声音的生成系统，利用深度学习技术，通过分析视频内容自动生成与之同步的声音效果，极大地简化了声音设计的流程。

EmotiVoice

EmotiVoice是一款由网易有道开发的开源文本到语音（TTS）引擎，支持中英文双语，并包含超过2000种不同的音色。其最显著的功能是情感合成功能，能够根据文本内容生成具有快乐、兴奋、悲伤、愤怒等多种情感的语音。

EmotiVoice-Plus

EmotiVoice-Plus是升级版文本转语音引擎，在原有网易有道EmotiVoice的基础上，增加了支持生成多人故事剧本的功能。

FunAudioLLM

FunAudioLLM是一款致力于提升人类与大型语言模型（LLMs）之间自然语音交互的先进模型。它正以前所未有的方式，重塑着人与机器之间的语音交互。

CosyVoice

CosyVoice是一个由阿里通义实验室开源的语音生成模型，专注于自然语音生成。它支持多语言、音色和情感控制，能够生成多种语言的自然流畅语音。

FoleyCrafter

FoleyCrafter是一个基于文本的视频到音频生成框架，可以生成与输入视频在语义上相关并且在时间上同步的高质量音频。

MARS5-TTS

MARS5-TTS是一款由CAMB.AI公司开发的开源语音合成模型，能够将文本转化为逼真的语音

Auffusion

Auffusion 模型是由北京邮电大学的研究团队提出的一种基于扩散模型和大语言模型的文本到音频（Text-to-Audio，TTA）系统，

V2A

V2A（Video-to-Audio）是由谷歌DeepMind发布的一项视频转音频技术，旨在自动为视频生成同步的音频。

TextToSpeech

TextToSpeech 是一款完全免费的在线 AI 文本转语音工具，它允许用户将文本转换成听起来非常自然的高质量语音，并且可以任意下载。

Seed-TTS

Seed-TTS是字节跳动团队推出的新型语音生成模型。该模型基于自回归Transformer架构，能够生成接近人类语音的自然且富有表现力的语音。Seed-TTS支持语音内容和说话速度的编辑，用户可以灵活调整生成的语音，以适应不同的应用场景。

ChatTTS

ChatTTS是一款专为对话场景设计的文本转语音（TTS）模型，旨在提供自然流畅的语音合成体验。

Tango 2

Tango 2是一款新型文本到音频生成模型，它通过直接偏好优化（Direct Preference Optimization, DPO），显著提升了音频输出与输入文本的匹配度。

Fish Speech

Fish Speech 是由 fishaudio 组织开发的开源项目，旨在提供一个高效、先进的文本到语音转换工具。

OpenVoice

OpenVoice是一个由MyShell开发的即时语音克隆AI工具，它使用短音频片段来复制声音，并支持多语言。用户可以精确控制声音风格和情感，包括口音、节奏、停顿和语调等方面。

Parler-TTS

Parler-TTS是一个高质量文本到语音（TTS）模型，它能够生成高质量且听起来非常自然的语音。

Bark AI

Bark AI是一个开源的文本转语音（TTS）模型，由Suno公司开发。它基于转换器（Transformer）架构，能够生成高度逼真的多语言语音、音乐、背景噪音以及非语言交流声音，如笑、叹息和哭泣等。

VoiceCraft

VoiceCraft 是一个开源项目，由 Jason Peng 等人开发，旨在实现零样本（Zero-Shot）语音编辑和文本到语音（Text-to-Speech, TTS）转换。

Convai

Convai是一个专为虚拟世界设计的对话人工智能平台，旨在通过最先进的生成式对话人工智能技术，为游戏或应用中的角色赋予人类般的对话能力。

Voice Engine

Voice Engine是OpenAI开发的一款音频大模型，主要功能是从15秒的音频样本和文本输入中生成自然且接近原说话者的声音。

Wav2Lip

Wav2Lip技术通过深度学习模拟预测唇部运动，并应用于唇部区域，然后通过音频特征和视频进行一一对应和合成，实现了高精度的语音驱动唇部动作同步。

DreamTalk

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架，可以生成不同说话风格的高质量的说话头视频，它由去噪网络、风格感知的嘴唇专家和风格预测器组成。

GPT-SoVITS

RVC变声器创始人（GitHub昵称：RVC-Boss）开源了一款跨语言音色克隆项目 GPT-SoVITS。支持少量语音转换、文本到语音的音色克隆模型，支持中文、英文、日文的语音推理。