新视频生成技术AnimateAnything:支持控制镜头轨迹、文本提示等

AI资讯 2个月前 硕雀
31 0

AnimateAnything是一项由阿里巴巴团队开发的新视频生成技术,旨在通过文本提示、运动引导(motion brush)和运动强度(motion strength)等手段,实现对静态图像中任意对象的精细控制,从而生成逼真的动态效果。这项技术的核心在于其细粒度的控制能力,允许用户通过简单的文本指令来驱动画面中特定区域的运动。

技术特点与实现方式

  1. 文本提示与运动引导
    • AnimateAnything允许用户通过简单的文本指令来控制图像中的动态效果。用户只需在目标对象上“涂”一下并提供指令,即可实现逼真程度堪比电影大片的动画效果。
    • 运动引导功能利用标签或掩模来界定动画区域,增强运动的真实感。
  2. 细粒度控制
    • 该技术引入了“运动笔刷”(motion brush)的概念,仅对被圈选区域进行动态处理,从而实现对局部区域的精确控制。
    • 用户可以通过标记指定区域,让这些区域根据提示动起来,同时保持其他区域不变。
  3. 运动强度控制
    • AnimateAnything还设计了“运动强度”参数(motion strength),用于衡量目标物体在不同时刻的位置差异,并将其编码为向量作为条件控制注入UNet的残差模块中,从而使模型具备运动速度的控制能力。
  4. GPU训练与优化
    • AnimateAnything支持多GPU训练,使用Accelerator DeepSpeed优化,降低了资源需求门槛,使得个人开发者也能尝试训练自己的模型。
  5. 高质量微调与数据处理
    • 在训练过程中,AnimateAnything基于video diffusion模型进行高质量微调,对HD-VILA-100M数据集进行清理过滤,挑选出20万个视频片段。训练时保留每个视频的第一帧的clean latent,并在后续帧上加入噪声,以预测完整视频。

应用场景与优势

AnimateAnything不仅是一个技术演示,它是一种艺术与技术的融合,正等待着每一位创作者去探索。无论是芭比娃娃的微笑、斗篷随风摆动,还是鱼儿的悠游,都能生动展现,为用户的想象力插上翅膀。此外,该技术在保持参考图像一致性和运动控制准确性方面展现出明显的优势,相比其他方法如Gen-2、Videocomposer和VideoCraft等,在细节还原和运动控制方面更具优势。

总体而言,AnimateAnything通过其创新的技术手段和强大的功能,为图像到视频的生成提供了前所未有的精细控制能力,极大地扩展了数字创意领域的可能性。

来源:www.aiug.cn
声明:文章来源于网络,如有侵权请联系删除!