什么是Loopy
LOOPY是由字节跳动和浙江大学的科研团队联合开发的一款基于音频驱动的视频扩散模型,旨在利用数据中的长期运动信息学习自然运动模式,提高音频与肖像运动的相关性,从而生成更逼真、高质量的肖像视频。
Loopy相关链接:
- Loopy项目主页:https://loopyavatar.github.io/
Loopy功能特点
- 帧间和帧内时间模块:设计了帧间和帧内时间模块,通过单独的时间层处理运动帧潜变量和噪声潜变量之间的跨帧时间关系以及当前帧噪声潜变量的时间关系。此外,引入时间片段模块到帧内层,将接收场扩展到超过100帧,有助于模型更好地捕捉运动模式,生成自然的运动。
- 音频到潜在空间模块:通过音频到运动潜在模块,将音频和面部运动相关特征转换为运动潜在。在训练时,这些运动潜在作为条件插入到去噪网络中,使模型能够更好地学习音频与肖像运动之间的关系。在测试时,仅使用音频即可生成与音频高度相关的运动潜在,实现精准的音频驱动肖像运动。
- 端到端音频仅条件生成:去除了人脸定位器和速度层等空间模板的限制,是一个端到端音频仅条件的视频扩散模型,使模型在生成视频时能够更加自由地发挥,生成的结果更加多样化和自然。
- 双时间层设计:采用帧间时间层和帧内时间层的双时间层设计,提高了视频的时间稳定性和图像质量。
- 时间片段模块:引入的时间片段模块能够将运动帧的覆盖范围扩展到超过100帧,为模型提供了更丰富的时间信息,有助于模型学习到更全面的运动风格信息,进一步提高了生成视频的质量。
Loopy应用场景
- 虚拟角色创建:在游戏、电影等虚拟角色的创建中,Loopy可以根据音频生成逼真的角色动作和表情,使虚拟角色更加生动自然,增强玩家或观众的沉浸感。
- 教育领域:可用于制作教学视频,根据讲解的音频生成相应的图像内容,帮助学生更好地理解和记忆知识。
- 社交媒体:用户可以使用Loopy创建有趣的音频驱动的肖像视频,分享自己的创意和故事,增加社交媒体的趣味性和互动性。