DreamTalk - 一个基于扩散的音频驱动的富有表现力的说话头像生成框架

AI视频工具 AI图生视频 AI视频工具 AI配音合成（文转音，语音克隆） AI音频工具

DreamTalk

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架，可以生成不同说话风格的高质量的说话头视频，它由去噪网络、风格感知的嘴唇专家和风格预测器组成。

标签：DreamTalk

链接直达手机查看

DreamTalk简介

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头像生成框架，可以生成不同说话风格的高质量的说话头视频，它由去噪网络、风格感知的嘴唇专家和风格预测器组成。去噪网络利用扩散模型产生具有参考视频指定的说话风格的音频驱动的面部动作。风格感知的嘴唇专家确保准确的嘴唇动作和生动的表情。风格预测器通过音频直接预测个性化的说话风格。DreamTalk能够在各种说话风格下一致生成逼真的说话头，并最小化对额外风格参考的需求。它还能够灵活地操纵说话风格，并在多语言、嘈杂音频和领域外肖像等各种输入下展现出强大的泛化能力。DreamTalk对各种输入表现出强大的性能，包括歌曲、多语言语音、噪声音频和域外肖像。

项目主页：https://dreamtalk-project.github.io/

论文地址：https://arxiv.org/pdf/2312.09767.pdf

Github地址：https://github.com/ali-vilab/dreamtalk

相关导航

Tailor

Tailor是一款功能强大的视频智能裁剪、视频生成和视频优化工具。该软件使用了先进的人工智能技术，能够通过简单的操作实现复杂的视频处理任务，从而节省时间和精力。

Vidu

Vidu是由生数科技与清华大学联合开发的视频大模型

ElevenLabs Dubbing

多语言语音合成、声音克隆、文本和音频处理技术，可以把任意一段音频或者视频，快速翻译为包括中文、葡萄牙语、日语等在内的29种语言，同时保留原语音者的音色特征和情感

Video-ReTalking

Video-ReTalking是一种基于AI的创新技术，主要用于实现视频中人物嘴型与输入声音的同步。这项技术可以自动调整视频中人物的嘴型和表情，使其与音频内容完全匹配，并且能够生成高质量、自然的输出视频。

ImagetoMusicV2

ImagetoMusicV2是一个图片生成音乐的在线AI工具，利用先进的机器学习算法和神经网络模型，通过对图像的特征进行分析和提取，自动生成相应的音乐，生成音频文件。

必剪Studio

必剪Studio是B站推出的一款免费AI数字分身定制和视频创作工具。