StreamingT2V简介
StreamingT2V是PicsArt推出的一款AI视频生成模型,能够根据文本描述生成长达2分钟的视频。该技术的核心构架包括条件注意力模块(CAM)和外观保持模块(APM),以及一个短期记忆单元和一个长期记忆单元。StreamingT2V的特点在于它采用先进的自回归技术,能够生成具有丰富动态性的长视频,保持视频时间一致性,与描述性文本紧密对齐,并保持了高帧级图像质量。
此外,StreamingT2V支持生成不同帧数的视频,包括80、240、600、1200帧或更多,理论上可以生成无限长的视频。它的出现标志着AI视频生成领域的一个新突破,不仅可以生成高质量的视频,而且内容过渡自然平滑,丰富多样。StreamingT2V的技术不断完善和提升,将进一步推动AI视频生成领域的发展。
开源代码:https://github.com/Picsart-AI-Research/StreamingT2V
论文地址:https://arxiv.org/pdf/2403.14773.pdf
试玩地址1:https://huggingface.co/spaces/PAIR/StreamingT2V
试玩地址2:https://replicate.com/camenduru/streaming-t2v