图森未来发布图生视频模型“Ruyi”并开源Ruyi-Mini-7B
模型概述
图森未来于2024年12月17日正式发布了其首个图生视频大模型“Ruyi”,并开源了Ruyi-Mini-7B版本,用户可以通过Hugging Face平台下载使用。
技术特点
模型架构
Ruyi是一个基于DiT架构的图生视频模型,主要由两个模块组成:一个CasualVAE模块负责视频数据的压缩和解压,另一个DiffusionTransformer负责压缩后的视频生成。CasualVAE模块将空间分辨率压缩至1/8,时间分辨率压缩至1/4,压缩后每个像素由16位的BF16表示。DiT部分使用3D full attention,在空间上使用2D RoPE进行位置编码,时间上使用sin_cos进行位置编码,最终的loss选用了DDPM进行训练。
分辨率与时长
Ruyi支持的分辨率范围从最小的384x384到最大的1024x1024,支持任意长宽比,最长可生成120帧(相当于5秒)的视频。
控制功能
Ruyi提供了多种控制功能,包括运动幅度控制和镜头控制。运动幅度控制提供了4档不同的选项,使用户能够方便地控制整体画面的变化程度。镜头控制则提供了上、下、左、右、静止共5种选项,以满足不同的创作需求。
开源版本
Ruyi-Mini-7B版本的开源使得用户可以在消费级显卡如RTX 4090上运行,并提供了详尽的部署说明和ComfyUI工作流,帮助用户快速上手。
应用前景
Ruyi模型专为动漫和游戏场景进行了深度学习,旨在降低动漫和游戏内容的开发周期和开发成本。通过输入关键帧,Ruyi可以生成后续的内容,或者在两个关键帧之间生成过渡内容,从而提高开发效率。
改进方向
尽管Ruyi在许多方面表现出色,但仍存在一些问题,如手部畸形、多人场景下面部细节崩坏、不可控转场等。图森未来表示正在努力改进这些问题,并计划在未来更新中进行修复。
总结
图森未来的Ruyi模型及其开源版本Ruyi-Mini-7B的发布,标志着该公司在图生视频领域的重大进展。凭借其先进的技术特点和广泛的应用前景,Ruyi有望成为动漫和游戏行业的重要工具。随着不断的改进和优化,Ruyi的性能和用户体验预计将进一步提升。