Moonshine是一款由Useful Sensors推出的开源语音识别模型,旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。
FireRedTTS是一个由小红书技术团队FireRed开发的开源文本转语音(TTS)系统,基于大语言模型(LLM)构建。该系统旨在为用户提供高质量的语音合成服务,并具有丰富的标点符号处理能力。
ImagetoMusicV2是一个图片生成音乐的在线AI工具,利用先进的机器学习算法和神经网络模型,通过对图像的特征进行分析和提取,自动生成相应的音乐,生成音频文件。
英特尔为开源音频编辑程序 Audacity 发布了一个名为 OpenVINO AI 的 AI 工具套件。这些插件允许 Audacity 用户在本地转录播客并根据提示生成音乐。
XAgent是一个开源的基于大型语言模型(LLM)的自主智能体,可以自动解决各种任务。它被设计为一个通用的智能体,可以应用于各种任务。作为一个开源实验性大型语言模型(LLM)驱动的自主代理,其核心是利用先进的自然语言处理和机器学习技术,使其能够理解和生成人类语言,从而自动解决各种任务。
Amphion介绍Amphion是一个用于音频、音乐和语音生成的开源工具包,不论是搞语音识别应用,还是音频编[…]
开源的文本到语音系统
针对视频自动配音设计的数据集