LOOPY - 一款基于音频驱动的视频扩散模型

AI视频工具 AI数字人 AI视频工具 AI音频转视频

LOOPY

LOOPY是由字节跳动和浙江大学的科研团队联合开发的一款基于音频驱动的视频扩散模型，旨在利用数据中的长期运动信息学习自然运动模式，提高音频与肖像运动的相关性，从而生成更逼真……

标签：AI视频扩散模型 AI音频转视频 LOOPY 肖像视频生成

链接直达手机查看

什么是Loopy

LOOPY是由字节跳动和浙江大学的科研团队联合开发的一款基于音频驱动的视频扩散模型，旨在利用数据中的长期运动信息学习自然运动模式，提高音频与肖像运动的相关性，从而生成更逼真、高质量的肖像视频。

帧间和帧内时间模块：设计了帧间和帧内时间模块，通过单独的时间层处理运动帧潜变量和噪声潜变量之间的跨帧时间关系以及当前帧噪声潜变量的时间关系。此外，引入时间片段模块到帧内层，将接收场扩展到超过100帧，有助于模型更好地捕捉运动模式，生成自然的运动。
音频到潜在空间模块：通过音频到运动潜在模块，将音频和面部运动相关特征转换为运动潜在。在训练时，这些运动潜在作为条件插入到去噪网络中，使模型能够更好地学习音频与肖像运动之间的关系。在测试时，仅使用音频即可生成与音频高度相关的运动潜在，实现精准的音频驱动肖像运动。
端到端音频仅条件生成：去除了人脸定位器和速度层等空间模板的限制，是一个端到端音频仅条件的视频扩散模型，使模型在生成视频时能够更加自由地发挥，生成的结果更加多样化和自然。
双时间层设计：采用帧间时间层和帧内时间层的双时间层设计，提高了视频的时间稳定性和图像质量。
时间片段模块：引入的时间片段模块能够将运动帧的覆盖范围扩展到超过100帧，为模型提供了更丰富的时间信息，有助于模型学习到更全面的运动风格信息，进一步提高了生成视频的质量。