MicroCinema简介
MicroCinema是一个简单而有效的文生视频框架,实现了高质量且连贯的文本到视频的生成。与传统的视频制作方法相比,MicroCinema引入了一种分而治之的方法,这种方法不同于直接将文本提示与视频对齐的现有方法。当前文生视频扩散模型(diffusion model)的主流方法是采用级联时空扩散模型,在文本-视频对之间进行学习,并通过在文本到图像生成模型中加入时间维度,再对文本和视频数据进行微调以创建文本到视频的模型。但是这种方法生成的视频常常会出现外观与时间不一致、不连贯的问题。
MicroCinema 通过将文本到视频的生成过程分为两个阶段来解决这一挑战:首先是文本到图像的生成,其次是图像加文本到视频的生成。在第一阶段,用户可以灵活利用先进的文本到图像模型(如 Stable Diffusion、Midjourney 和 DALL-E)来生成逼真且细节丰富的图像,这些图像作为视频的关键帧,为之后的视频片段生成提供了基础。在第二阶段,通过将这些生成的图像与初始文本一同作为输入,模型便可以减少对细节外观的关注,更专注于学习动态变化。
为了有效实施这一策略,研究员们引入了两项核心技术:利用外观注入网络(Appearance Injection Network)来增强保持给定图像外观的能力;通过外观噪声先验机制(Appearance Noise Prior)保持预训练的 2D 扩散模型的能力。
两段式的设计策略不仅使 MicroCinema 能够生成根据文本提示精确控制动作的高质量视频,而且显著降低了模型从头训练的成本。
论文链接:https://arxiv.org/abs/2311.18829
GitHub 链接:https://wangyanhui666.github.io/MicroCinema.github.io/