AI音频工具 AI语音识别(音转文) AI音频工具
SenseVoice

SenseVoice是由阿里开源的具有音频理解能力的音频基础模型

标签:
广告也精彩
广告也精彩

什么是SenseVoice

SenseVoice是由阿里开源的具有音频理解能力的音频基础模型,该模型拥有以下能力:语音识别(ASR
语种识别(LID)、语音情感识别(SER)、声学事件分类(AEC)、声学事件检测(AED)。

SenseVoice项目地址:https://github.com/FunAudioLLM/SenseVoice

SenseVoice 主要功能

支持中、粤、英、日、韩语等 50 多种语言,识别效果优于 Whisper 模型。
情感识别技术在测试数据上的表现,超过了现有的最佳模型。
能够检测多种声音事件,包括音乐、掌声、笑声、哭声、咳嗽和喷嚏等常见的人机交互声音。
拥有完善的服务部署流程,能够处理多并发请求,并且支持多种客户端语言,包括 Python、C++、Java 和 C# 等。
推理速度极快,10 秒音频的推理时间仅需 70 毫秒,性能是 Whisper-Large 的 15 倍。

SenseVoice 使用示例

粤语识别

英语识别

语音情感识别:能够识别音频中的情感,比如,积极和消极等。

声学事件检测:能够识别音频文件中的掌声长语音识别。

在线示例:https://www.modelscope.cn/studios/iic/SenseVoice

SenseVoice 快速上手

1.克隆项目

https://github.com/FunAudioLLM/SenseVoice.git

2.安装项目依赖

pip install -r requirements.txt

3.直接推理

from model import SenseVoiceSmall

model_dir = "iic/SenseVoiceSmall"
m, kwargs = SenseVoiceSmall.from_pretrained(model=model_dir)

res = m.inference(
data_in="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
use_itn=False,
**kwargs,
)
print(res)

 

来源:www.aiug.cn

相关导航