Moonshine是一款由Useful Sensors推出的开源语音识别模型,旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。
Easy-Voice-Toolkit 是一个功能丰富的开源音频处理项目,它集成了多种音频处理技术,为用户提供一站式的音频解决方案。
MooER是摩尔线程公司开发的一款音频理解大模型,是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。
GroqNotes是一个基于Streamlit的应用程序,它利用Groq的Whisper和Llama3技术,将音频内容快速转换成有组织的笔记。这个项目通过结合Groq的高速处理能力和先进的AI模型,实现了音频到文本的快速转换。
FunAudioLLM是一款致力于提升人类与大型语言模型(LLMs)之间自然语音交互的先进模型。它正以前所未有的方式,重塑着人与机器之间的语音交互。
Whisper是OpenAI开发的一个自动语音识别(ASR)系统。它基于从网络上收集的680,000小时的多语种和多任务监督数据进行训练,具有极高的准确性和适应性。
SenseVoice是由阿里开源的具有音频理解能力的音频基础模型
StreamSpeech 是一个集语音识别、语音翻译和语音合成于一体的无缝模型。它不仅支持离线任务,还能在流式环境中提供实时的语音到语音翻译,显著提升了低延迟通信的体验。
Amphion介绍Amphion是一个用于音频、音乐和语音生成的开源工具包,不论是搞语音识别应用,还是音频编[…]
Audiobox 是一款Meta推出的AI声音生成模型,Audiobox是基于Meta推出的Voicebox AI模型,能生成各种环境音、自然对话语音能够同时接收语音及文字输入,并整合了音频生成和编辑能力,用户可同时使用语音及文字描述,让这款模型生成所需的音频。
腾讯智影集素材搜集、智能配音、数字人播报、在线剪辑、协作审片等视频生产全链路于一体,引领智能创作新方式。