图森未来发布图生视频模型“Ruyi”并开源Ruyi-Mini-7B

AI资讯 4个月前硕雀

97 0 0

图森未来发布图生视频模型“Ruyi”并开源Ruyi-Mini-7B

模型概述

图森未来于2024年12月17日正式发布了其首个图生视频大模型“Ruyi”，并开源了Ruyi-Mini-7B版本，用户可以通过Hugging Face平台下载使用。

技术特点

模型架构

Ruyi是一个基于DiT架构的图生视频模型，主要由两个模块组成：一个CasualVAE模块负责视频数据的压缩和解压，另一个DiffusionTransformer负责压缩后的视频生成。CasualVAE模块将空间分辨率压缩至1/8，时间分辨率压缩至1/4，压缩后每个像素由16位的BF16表示。DiT部分使用3D full attention，在空间上使用2D RoPE进行位置编码，时间上使用sin_cos进行位置编码，最终的loss选用了DDPM进行训练。

分辨率与时长

Ruyi支持的分辨率范围从最小的384x384到最大的1024x1024，支持任意长宽比，最长可生成120帧（相当于5秒）的视频。

控制功能

Ruyi提供了多种控制功能，包括运动幅度控制和镜头控制。运动幅度控制提供了4档不同的选项，使用户能够方便地控制整体画面的变化程度。镜头控制则提供了上、下、左、右、静止共5种选项，以满足不同的创作需求。

开源版本

Ruyi-Mini-7B版本的开源使得用户可以在消费级显卡如RTX 4090上运行，并提供了详尽的部署说明和ComfyUI 工作流，帮助用户快速上手。

应用前景

Ruyi模型专为动漫和游戏场景进行了深度学习，旨在降低动漫和游戏内容的开发周期和开发成本。通过输入关键帧，Ruyi可以生成后续的内容，或者在两个关键帧之间生成过渡内容，从而提高开发效率。

改进方向

尽管Ruyi在许多方面表现出色，但仍存在一些问题，如手部畸形、多人场景下面部细节崩坏、不可控转场等。图森未来表示正在努力改进这些问题，并计划在未来更新中进行修复。

总结

图森未来的Ruyi模型及其开源版本Ruyi-Mini-7B的发布，标志着该公司在图生视频领域的重大进展。凭借其先进的技术特点和广泛的应用前景，Ruyi有望成为动漫和游戏行业的重要工具。随着不断的改进和优化，Ruyi的性能和用户体验预计将进一步提升。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

图森未来发布图生视频模型“Ruyi”并开源Ruyi-Mini-7B

图森未来发布图生视频模型“Ruyi”并开源Ruyi-Mini-7B

模型概述

技术特点

模型架构

分辨率与时长

控制功能

开源版本

应用前景

改进方向

总结

YouTube新功能上线：允许创作者授权第三方使用视频训练AI

Meta推出开源AI试衣模型Leffa：保留更多细节