阿里推声画同步框架EMO 一张图片加音频即可生成对口型视频

AI资讯 1年前 (2024) 硕雀来源：站长之家

86 0 0

近期，阿里巴巴智能计算研究所提出了一种新的生成式框架EMO，只需输入图片和音频即可生成具有表现力的视频，而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配，但也可能成为造假的利器，因此一些名人可能需要警惕了。

该框架包含两个主要阶段，首先是帧编码阶段，利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段，通过预训练的音频编码器处理声音嵌入，并结合多帧噪声和面部区域掩码来生成头像。在此过程中，采用了两种注意机制（参考注意和音频注意）和时间模块，以保持角色身份并调节运动速度。

项目地址:https://humanaigc.github.io/emote-portrait-alive/

EMO不仅支持多语言歌曲和不同风格的头像生成，还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频，并保持角色的身份特征在长时间内的稳定性。此外，EMO还展示了在快节奏音乐中保持与音频同步的能力，确保角色动画的表现力和动态性。

这一研究对于头像视频生成领域具有重要意义，为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业，还可以在学术研究和教育培训等领域发挥重要作用。然而，需要注意的是，该框架目前仅用于学术研究和效果演示，还有待进一步优化和扩展其应用范围。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！