VideoTetris - 由北京大学与快手AI团队共同推出的视频生成框架

AI视频工具 AI文生视频 AI视频工具

VideoTetris

VideoTetris是由北京大学与快手AI团队共同推出的视频生成框架，用以实现复杂视频的生成。VideoTetris技术的核心在于其创新的时空组合扩散模型。这一模型能够精确捕捉文本中描述的复……

链接直达手机查看

什么是VideoTetris

VideoTetris是由北京大学与快手AI团队共同推出的视频生成框架，用以实现复杂视频的生成。VideoTetris技术的核心在于其创新的时空组合扩散模型。这一模型能够精确捕捉文本中描述的复杂场景和动态变化，通过操纵去噪网络的注意力图，实现视频内容的精确生成。无论是静态场景的细腻描绘，还是动态过程的流畅展现，VideoTetris都能够游刃有余。

论文地址：https://arxiv.org/abs/2406.04277

项目主页：https://videotetris.github.io/

GitHub地址：https://github.com/YangLing0818/VideoTetris

VideoTetris技术亮点

1.时空组合扩散（Spatio-Temporal Compositional Diffusion）

核心原理：VideoTetris通过时空组合扩散技术，将文本描述中的各个元素（如人物、动作、场景）分解为独立的子对象，并在视频帧中为它们分配适当的空间和时间位置。
创新之处：不同于传统方法，该技术不需要大规模训练即可直接调整去噪网络的交叉注意力，实现对复杂文本语义的精确追踪。

2.增强视频数据预处理（Enhanced Video Data Preprocessing）

动态优化：VideoTetris对训练数据进行筛选，选择具有一致运动动态的视频片段，通过计算视频的光流（optical flow）来评估运动的一致性和稳定性。

语义增强：对视频数据进行重新描述（recaptioning），使用多模态大型语言模型（LLMs）生成更丰富、更详细的描述，增强模型对复杂组合提示的理解和生成能力。

3.参考帧注意力机制（Reference Frame Attention）
一致性保持：通过在潜在表示空间中与参考帧对齐，VideoTetris能够维持视频中对象特征的一致性，即使在长时间视频中也能保持对象特征不发生突兀变化。
技术实现：使用2D卷积层和投影层对参考图像进行编码，然后在每个注意力块中插入参考帧注意力块，计算当前对象与参考对象之间的交叉注意力。

4.训练自由的组合方法（Training-Free Compositional Approach）
灵活性：VideoTetris的方法可以直接应用于现有的文本到视频模型，如VideoCrafter2、AnimateDiff等，无需额外训练即可获得组合、一致且具有审美感的结果。
应用广泛：无论是短时视频生成还是长时视频生成，该方法都能有效地处理复杂的场景和动态变化。

5.先进的评估指标（Advanced Evaluation Metrics）
VideoTetris引入了新的评估指标，如VBLIP-VQA和VUnidet，这些指标能够更细致地评估视频生成中的对象级属性和空间关系的对应性，而不仅仅是文本-视频或视频-视频的相似度。

相关导航

UniVG

UniVG 是百度开发的一种统一模态的视频生成系统。这个系统通过处理文本和图像两种方式，能够解决多种视频生成任务。

Haiper

Haiper是一款AI视频生成工具，支持文生视频，图生视频，视频转视频，还提供视频卡通化、照片卡通化、重绘视频等功能，目前只能生成最长2秒的高清视频或最长4秒的标清视频

Genmo AI

人工智能技术生成视频的平台

EmoTalk3D

EmoTalk3D是一个专注于3D虚拟人头合成的数字人框架，旨在解决传统3D人头合成中视角一致性和情感表达不足的问题。

MOKI

MOKI是由美图公司推出的一款专注于视频创作者的AI工具，旨在简化视频制作流程并提高创作效率。MOKI基于美图自研的奇想智能大模型（MiracleVision），通过AI技术为用户提供从前期策划到后期制作的全方位解决方案。

DreamTalk

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架，可以生成不同说话风格的高质量的说话头视频，它由去噪网络、风格感知的嘴唇专家和风格预测器组成。