AI音频工具

AI修复去噪增强

ClearerVoice-Studio

ClearerVoice-Studio是阿里达摩院开源的一个音频处理工具，集成了语音增强、语音分离和音视频说话人提取等功能的开源语音处理框架。

Easy-Voice-Toolkit

Easy-Voice-Toolkit 是一个功能丰富的开源音频处理项目，它集成了多种音频处理技术，为用户提供一站式的音频解决方案。

AI语音识别（音转文）

Moonshine

Moonshine是一款由Useful Sensors推出的开源语音识别模型，旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。

Easy-Voice-Toolkit

Easy-Voice-Toolkit 是一个功能丰富的开源音频处理项目，它集成了多种音频处理技术，为用户提供一站式的音频解决方案。

MooER

MooER是摩尔线程公司开发的一款音频理解大模型，是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。

GroqNotes

GroqNotes是一个基于Streamlit的应用程序，它利用Groq的Whisper和Llama3技术，将音频内容快速转换成有组织的笔记。这个项目通过结合Groq的高速处理能力和先进的AI模型，实现了音频到文本的快速转换。

FunAudioLLM

FunAudioLLM是一款致力于提升人类与大型语言模型（LLMs）之间自然语音交互的先进模型。它正以前所未有的方式，重塑着人与机器之间的语音交互。

Whisper

Whisper是OpenAI开发的一个自动语音识别（ASR）系统。它基于从网络上收集的680,000小时的多语种和多任务监督数据进行训练，具有极高的准确性和适应性。

SenseVoice

SenseVoice是由阿里开源的具有音频理解能力的音频基础模型

StreamSpeech

StreamSpeech 是一个集语音识别、语音翻译和语音合成于一体的无缝模型。它不仅支持离线任务，还能在流式环境中提供实时的语音到语音翻译，显著提升了低延迟通信的体验。

Amphion

Amphion介绍Amphion是一个用于音频、音乐和语音生成的开源工具包，不论是搞语音识别应用，还是音频编[…]

Audiobox

Audiobox 是一款Meta推出的AI声音生成模型，Audiobox是基于Meta推出的Voicebox AI模型，能生成各种环境音、自然对话语音能够同时接收语音及文字输入，并整合了音频生成和编辑能力，用户可同时使用语音及文字描述，让这款模型生成所需的音频。

腾讯智影

腾讯智影集素材搜集、智能配音、数字人播报、在线剪辑、协作审片等视频生产全链路于一体，引领智能创作新方式。

AI配音合成（文转音，语音克隆）

more+

OpenAI.fm

OpenAI.fm 是由 OpenAI 推出的一个互动演示平台，旨在为开发者提供一个调试和体验最新语音模型的场所。

Fugatto

Fugatto的新型人工智能音频模型，该模型能够根据文本提示或音频输入生成音乐和音效

Seed-VC

Seed-VC是一种基于SEED-TTS架构的开源声音转换模型，能够实现零样本的声音克隆和转换。

VideoLingo

VideoLingo 是一款一站式视频翻译本地化配音工具，旨在生成 Netflix 级别的高质量字幕，告别生硬机翻，告别多行字幕，还能加上高质量的配音，让全世界的知识能够跨越语言的障碍共享。

EzAudio

EzAudio是一个由腾讯AI实验室和约翰霍普金斯大学联合开发的文本到音频（T2A）生成模型。

魔音工坊

魔音工坊是一款由北京小问智能科技有限公司开发的AI配音软件，旨在为用户提供一站式AI配音服务。它广泛应用于短视频、有声书、新闻播报、广告宣传等多种场景，能够将输入或粘贴的文本一键转换为音频。

Linly-Dubbing

Linly-Dubbing是一款多语言 AI 配音及视频翻译工具，基于 YouDub-webui 的灵感进行了创新性的拓展和优化。

Easy-Voice-Toolkit

Easy-Voice-Toolkit 是一个功能丰富的开源音频处理项目，它集成了多种音频处理技术，为用户提供一站式的音频解决方案。

Video-Foley

Video-Foley是由韩国高等科学技术院（KAIST）的研究团队开发的一个视频到声音的生成系统，利用深度学习技术，通过分析视频内容自动生成与之同步的声音效果，极大地简化了声音设计的流程。

EmotiVoice

EmotiVoice是一款由网易有道开发的开源文本到语音（TTS）引擎，支持中英文双语，并包含超过2000种不同的音色。其最显著的功能是情感合成功能，能够根据文本内容生成具有快乐、兴奋、悲伤、愤怒等多种情感的语音。

EmotiVoice-Plus

EmotiVoice-Plus是升级版文本转语音引擎，在原有网易有道EmotiVoice的基础上，增加了支持生成多人故事剧本的功能。

FunAudioLLM

FunAudioLLM是一款致力于提升人类与大型语言模型（LLMs）之间自然语音交互的先进模型。它正以前所未有的方式，重塑着人与机器之间的语音交互。

CosyVoice

CosyVoice是一个由阿里通义实验室开源的语音生成模型，专注于自然语音生成。它支持多语言、音色和情感控制，能够生成多种语言的自然流畅语音。

FoleyCrafter

FoleyCrafter是一个基于文本的视频到音频生成框架，可以生成与输入视频在语义上相关并且在时间上同步的高质量音频。

MARS5-TTS

MARS5-TTS是一款由CAMB.AI公司开发的开源语音合成模型，能够将文本转化为逼真的语音

Auffusion

Auffusion 模型是由北京邮电大学的研究团队提出的一种基于扩散模型和大语言模型的文本到音频（Text-to-Audio，TTA）系统，

V2A

V2A（Video-to-Audio）是由谷歌DeepMind发布的一项视频转音频技术，旨在自动为视频生成同步的音频。

TextToSpeech

TextToSpeech 是一款完全免费的在线 AI 文本转语音工具，它允许用户将文本转换成听起来非常自然的高质量语音，并且可以任意下载。

Seed-TTS

Seed-TTS是字节跳动团队推出的新型语音生成模型。该模型基于自回归Transformer架构，能够生成接近人类语音的自然且富有表现力的语音。Seed-TTS支持语音内容和说话速度的编辑，用户可以灵活调整生成的语音，以适应不同的应用场景。

ChatTTS

ChatTTS是一款专为对话场景设计的文本转语音（TTS）模型，旨在提供自然流畅的语音合成体验。

Tango 2

Tango 2是一款新型文本到音频生成模型，它通过直接偏好优化（Direct Preference Optimization, DPO），显著提升了音频输出与输入文本的匹配度。

Fish Speech

Fish Speech 是由 fishaudio 组织开发的开源项目，旨在提供一个高效、先进的文本到语音转换工具。

OpenVoice

OpenVoice是一个由MyShell开发的即时语音克隆AI工具，它使用短音频片段来复制声音，并支持多语言。用户可以精确控制声音风格和情感，包括口音、节奏、停顿和语调等方面。

Parler-TTS

Parler-TTS是一个高质量文本到语音（TTS）模型，它能够生成高质量且听起来非常自然的语音。

AI音乐创作（歌曲生成，风格转换，音频分离）

more+

Seed-Music

Seed-Music是一个由字节跳动研发的音乐生成模型，用户可以通过输入多模态数据（如文本描述、音频参考、乐谱、声音提示等）来生成音乐，并且提供了方便的后期编辑功能，比如修改歌词或旋律。

FluxMusic

FluxMusic是一种基于扩散模型和Transformer架构（DiT）的开源音乐生成模型，该模型能够很好地遵循提示词生成音乐，并且生成的音乐更加自然流畅。

Melodio

什么是MelodioMelodio是由昆仑万维推出的一款AI流媒体音乐平台。该平台基于昆仑万维自研的Skym[…]

Audiocraft

Audiocraft 是一个AI音频和音乐生成工具，该工具声称可以直接从文本描述和参考音乐生成高质量的音频和音乐。

MusicGen

MusicGen是由Meta AI开发的一款音乐生成模型，旨在通过文本描述或旋律提示来创作高质量的音乐作品。

海绵音乐

海绵音乐是字节跳动公司推出的一款AI音乐创作平台，旨在利用人工智能技术生成个性化音乐。该平台的主要功能包括灵感创作和自定义创作，用户可以通过输入关键词生成歌词或自定义旋律、节奏等元素。此外，海绵音乐还支持一键生成歌词，并且单次可生成1分钟时长的歌曲。

Stable Audio Open

Stable Audio Open是一个基于文本的音频生成模型，能够根据简单的文本提示生成长达47秒的高质量音频数据。无论是鼓点、乐器旋律、环境声音还是音效，它都能轻松应对。

ComposerX

ComposerX是一个符号音乐生成框架，它利用大型语言模型（LLMs）的能力，结合音乐历史和理论的大型知识库，以及推理能力，来提升音乐作品的质量和创作过程的效率。

singing-songstarter

singing-songstarter是一个创新的音乐生成工具，它允许用户通过哼唱一段旋律来生成AI音乐样本。这个工具展现了AI在理解和创作音乐方面的潜力。

Jukebox

Jukebox 是一个由 OpenAI 开发的生成音乐模型，它能够通过深度学习技术生成各种风格的音乐作品。

SkyMusic

天工SkyMusic是昆仑万维推出的一款AI音乐生成大模型，它是基于昆仑万维的「天工3.0」超级大模型打造。

VocalRemover

VocalRemover提供了一个免费的在线人声和音乐分离服务，用户可以上传音频文件并获取分离的人声和伴奏音轨。它支持多种常见音频格式，使用方便，无需安装任何软件。

LALAL.AI

LALAL.AI是一个先进的在线音乐源分离服务，它不仅可以分离人声，还可以分离各种乐器音轨，如鼓点、贝斯、钢琴等。

Sonauto

Sonauto是一个AI音乐创作平台，它能够将文本描述转化为动听的音乐作品。无论是业余爱好者还是专业音乐人，都可以通过简单的文本输入来指导AI创作出符合自己想法的音乐。

Parler-TTS

Parler-TTS是一个高质量文本到语音（TTS）模型，它能够生成高质量且听起来非常自然的语音。

Udio

Udio简介Udio是一款由前GoogleDeepMind工程师开发的革命性的AI音乐创作工具，通过文本提[…]

Bark AI

Bark AI是一个开源的文本转语音（TTS）模型，由Suno公司开发。它基于转换器（Transformer）架构，能够生成高度逼真的多语言语音、音乐、背景噪音以及非语言交流声音，如笑、叹息和哭泣等。

网易天音

网易天音是网易推出的一站式AI音乐创作工具，旨在为用户提供便捷的音乐创作体验。该产品集成了多种功能，包括AI智能快速编曲、AI作词与创作、一键demo和虚拟歌姬歌声合成等。

Suno V3

SunoV3简介SunoV3是SunoAI在2024年3月22日推出的最新版本，标志着该公司在音乐创作[…]

MuseNet

MuseNet是由OpenAI开发的一款基于深度神经网络的音乐生成工具，它能够使用多达10种不同的乐器生成4分钟的音乐作品。

MusicLM

MusicLM是Google研究小组开发的一个从文本生成音乐模型。MusicLM采用了层次化的序列到序列的方法，这使得它能够生成几分钟内一致的音乐。

Ecrett Music

Ecrett Music是一个由人工智能驱动的AI音乐创作软件，旨在帮助内容创作者以快速、简单且经济的方式制作出适合自己的无版权音乐。致力于解决内容创作者在选择合适音乐时遇到的困难，并通过AI作曲软件增强创作过程。

Amper Music

Amper Music是一款致力于通过人工智能技术帮助内容创作者创作和定制原创音乐的工具。

Loudly

Loudly 的 AI 音乐生成器是一个使用 AI 技术让用户制作自己音乐的程序。AI 系统可以在几秒钟内生成一首新歌，用户只需选择流派和所需长度。该应用的目标是通过自动化音乐创作，帮助和改进创造过程，使用户可以更多关注视频制作或内容开发的其他方面。