WhisperSpeech

AI开源项目 AI开源项目语音模型

WhisperSpeech

开源的文本到语音系统

链接直达手机查看

WhisperSpeech是一个开源的文本到语音系统，其最大的亮点是通过对OpenAI的Whisper语音识别模型进行反向工程，实现了接收文本输入，并利用修改后的Whisper模型生成听起来自然的语音输出。WhisperSpeech的语音输出在发音准确性和自然度方面都非常出色。

体验地址：https://replicate.com/lucataco/whisperspeech-small

Github：https://github.com/lucataco/cog-whisperspeech

目前，WhisperSpeech模型是在英语LibreLight数据集上训练的，但下一个版本的目标是多种语言（Whisper和EnCodec都是多语言的）。系统还可以在单个句子中混合多种语言，并且增加了测试语音克隆的简便方法。

WhisperSpeech 项目路线图:

-声学标记提取:改进声学标记的提取过程。

-语义标记提取:使用Whisper模型生成和量化语义标记。

-S-gt;A模型转换:开发将语义标记转换为声学标记的模型。

-T-gt;S模型转换:实现从文本标记到语义标记的转换。

-提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。

-短句推理优化:改善系统处理短句的能力。

-扩展情感语音数据集:收集更大的情感语音数据。

-文档化LibriLight数据集:详细记录HuggingFace上的数据集。

-多语言语音收集:聚集社区资源，收集多种语言的语音。

-训练多语言模型:开发支持多语言的文本到语音模型。

Stable Diffusion 3.5是Stability AI最新发布的AI图像生成模型，相较于前代产品SD3，它在图像生成的逼真度、提示响应和文本渲染方面都有显著提升。

“万卷·丝路”多语言预训练语料库是由上海人工智能实验室联合大模型语料数据联盟成员共同发布的一个高质量多语言预训[…]

Stable Diffusion是stability.ai开源的图像生成模型。Stable Diffusion能够从文本描述中生成详细的图像，它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。

Awesome MCP Servers 是一个开源项目，旨在为开发者和研究人员提供一个全面的 Model Context Protocol (MCP) 服务器集合。

HRSID数据集是电子科技大学在2020年1月发布数据集，HRSID是高分辨率SAR图像中用于船舶检测、语义分割和实例分割任务的数据集。该数据集共包含5604张高分辨率SAR图像和16951个ship实例。

英特尔为开源音频编辑程序 Audacity 发布了一个名为 OpenVINO AI 的 AI 工具套件。这些插件允许 Audacity 用户在本地转录播客并根据提示生成音乐。