AI语音识别（音转文）

Moonshine是一款由Useful Sensors推出的开源语音识别模型，旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。

Easy-Voice-Toolkit 是一个功能丰富的开源音频处理项目，它集成了多种音频处理技术，为用户提供一站式的音频解决方案。

MooER是摩尔线程公司开发的一款音频理解大模型，是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。

GroqNotes是一个基于Streamlit的应用程序，它利用Groq的Whisper和Llama3技术，将音频内容快速转换成有组织的笔记。这个项目通过结合Groq的高速处理能力和先进的AI模型，实现了音频到文本的快速转换。

FunAudioLLM是一款致力于提升人类与大型语言模型（LLMs）之间自然语音交互的先进模型。它正以前所未有的方式，重塑着人与机器之间的语音交互。

Whisper是OpenAI开发的一个自动语音识别（ASR）系统。它基于从网络上收集的680,000小时的多语种和多任务监督数据进行训练，具有极高的准确性和适应性。

SenseVoice是由阿里开源的具有音频理解能力的音频基础模型

StreamSpeech 是一个集语音识别、语音翻译和语音合成于一体的无缝模型。它不仅支持离线任务，还能在流式环境中提供实时的语音到语音翻译，显著提升了低延迟通信的体验。

Amphion介绍Amphion是一个用于音频、音乐和语音生成的开源工具包，不论是搞语音识别应用，还是音频编[…]

Audiobox 是一款Meta推出的AI声音生成模型，Audiobox是基于Meta推出的Voicebox AI模型，能生成各种环境音、自然对话语音能够同时接收语音及文字输入，并整合了音频生成和编辑能力，用户可同时使用语音及文字描述，让这款模型生成所需的音频。

腾讯智影集素材搜集、智能配音、数字人播报、在线剪辑、协作审片等视频生产全链路于一体，引领智能创作新方式。