DreamTalk简介
DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头像生成框架,可以生成不同说话风格的高质量的说话头视频,它由去噪网络、风格感知的嘴唇专家和风格预测器组成。去噪网络利用扩散模型产生具有参考视频指定的说话风格的音频驱动的面部动作。风格感知的嘴唇专家确保准确的嘴唇动作和生动的表情。风格预测器通过音频直接预测个性化的说话风格。DreamTalk能够在各种说话风格下一致生成逼真的说话头,并最小化对额外风格参考的需求。它还能够灵活地操纵说话风格,并在多语言、嘈杂音频和领域外肖像等各种输入下展现出强大的泛化能力。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语言语音、噪声音频和域外肖像。
项目主页:https://dreamtalk-project.github.io/
论文地址:https://arxiv.org/pdf/2312.09767.pdf
Github地址:https://github.com/ali-vilab/dreamtalk