语音模型 | AIUG

Moonshine是一款由Useful Sensors推出的开源语音识别模型，旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。

FireRedTTS是一个由小红书技术团队FireRed开发的开源文本转语音（TTS）系统，基于大语言模型（LLM）构建。该系统旨在为用户提供高质量的语音合成服务，并具有丰富的标点符号处理能力。

ToucanTTS是由德国斯图加特大学自然语言处理研究所（IMS）开发的一个高级文本转语音（Text-to-Speech, TTS）工具箱

ImagetoMusicV2是一个图片生成音乐的在线AI工具，利用先进的机器学习算法和神经网络模型，通过对图像的特征进行分析和提取，自动生成相应的音乐，生成音频文件。

英特尔为开源音频编辑程序 Audacity 发布了一个名为 OpenVINO AI 的 AI 工具套件。这些插件允许 Audacity 用户在本地转录播客并根据提示生成音乐。

XAgent是一个开源的基于大型语言模型（LLM）的自主智能体，可以自动解决各种任务。它被设计为一个通用的智能体，可以应用于各种任务。作为一个开源实验性大型语言模型（LLM）驱动的自主代理，其核心是利用先进的自然语言处理和机器学习技术，使其能够理解和生成人类语言，从而自动解决各种任务。

Amphion介绍Amphion是一个用于音频、音乐和语音生成的开源工具包，不论是搞语音识别应用，还是音频编[…]

开源的文本到语音系统

针对视频自动配音设计的数据集