OpenAI 发布全新音频模型：文本转语音与语音转文本

AI资讯 4周前硕雀

34 0 0

OpenAI最近发布了全新的音频模型，包括文本转语音（Text-to-Speech, TTS）和语音转文本（Speech-to-Text, STT）功能。这些模型在多个方面展现了显著的技术进步和应用潜力，以下是详细介绍：

语音转文本（STT）：
- OpenAI推出了两个版本的语音转文本模型：gpt-4o-transcribe（精准版）和gpt-4o-mini-transcribe（轻量版）。这些模型在处理口音、噪音和不同语速的场景中表现优异，尤其在嘈杂环境中能够高效转录，准确率接近人类水平。
- 新模型采用了多样化、高质量的音频数据集进行训练，能够捕捉语音的细微差别，减少误识别，提高转录的可靠性。
- 在多个基准测试中，这些模型的单词错误率（WER）显著降低，超越了之前的Whisper模型。
文本转语音（TTS）：
- OpenAI发布了gpt-4o-mini-tts模型，支持自定义声音风格，开发者可以指定说话人的性别、年龄、语气等参数，生成更自然、富有感情的语音。
- 新模型支持“可引导性”，开发者不仅可以指定“说什么”，还可以控制“如何说”，例如调整语速、音调等。
- 模型生成的语音质量高，能够真实地复刻多种语言的发音，并支持AI变声功能，例如通过上传参考音频实现不同说话人的声音克隆8。

OpenAI TTS重磅首发！划时代语音复刻+AI变声，3秒一键声音克隆！可在线使用！真实拟声、实时推理！

模块化设计：新模型采用模块化设计，将处理流程分解为三个独立环节：语音转文本、大型语言模型处理、文本转语音。这种设计使得各组件可以独立优化，提高整体性能。
蒸馏方法与知识迁移：通过蒸馏方法从大模型到小模型的知识转移，以及强化学习技术，进一步提升了模型的转录精度和生成质量。
数据与训练：新模型基于真实音频数据进行训练，并结合许可数据和公开数据的组合，确保生成的语音与原始声音高度相似。

OpenAI表示将继续提升音频模型的智能性和准确性，并允许开发者引入自定义声音。此外，这些模型的应用场景将进一步扩展，例如在医疗、教育、娱乐等领域发挥更大作用

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！