什么是ViViD
ViViD视频虚拟试穿技术可随意替换视频中人物的衣服,旨在通过合成视频让消费者看到衣物穿在自己身上的真实效果。该框架由中国科学技术大学和阿里巴巴集团的研究团队联合开发,利用扩散模型(DiffusioModels)来实现高质量和一致性的试穿视频。
项目及演示:
https://becauseimbatmant0.github.io/ViViD
论文:https:/arxiv.org/pdf/2405.11794
GitHub:https://github.com/alibaba-yuanjing-aigclab/ViViD
ViViD主要能力与效果
1.高质量的服装细节保留:ViViD利用服装编码器提取细粒度的服装语义特征,通过注意力特征融合机制,将这些细节准确地注入到目标视频中。这确保了在试穿过程中,服装的颜色、质地和图案等细节都能被高保真地保留和呈现。
2.时空一致性:ViViD引入了姿态编码器和层次化时间模块,以确保视频帧之间的时空一致性。姿态编码器帮助模型理解和处理人体姿态与服装之间的交互,而时间模块则捕捉和整合视频帧间的时间信息,使得生成的视频更加连贯和自然,避免了闪烁和伪影。
3.多种服装类型的支持:ViViD的数据集包含了上身、下身和连衣裙(包括连体衣)等多种服装类型。这使得ViViD能够适用于多种试穿场景,包括上半身、下半身和连衣裙,适应多样化的试穿需求。
4.高分辨率视频生成:ViViD利用收集的新数据集,其分辨率高达832×624,能够生成高分辨率的试穿视频。这确保了视频中的每一帧都具有良好的视觉质量,能够展示出服装的细节和人物的动作。
5.实时视频试穿:基于ViViD的高效训练和推理框架,具有较快的处理速度,能够在合理的时间内完成视频虚拟试穿,适用于实时或近实时的应用场景。
ViViD解决了什么问题?
1.时空一致性问题:传统的基于图像的方法应用到视频中会导致时间上的不一致,出现闪烁和伪影。ViViD通过时空模块解决了这一问题,确保视频的连贯性。
2.低质量和模糊问题:现有的视频试穿解决方案通常生成低质量和模糊的结果。ViViD利用广散模型生成高质量的视频,保留了衣物的细节和质感。
3.数据集的限制:现有的视频虚拟试穿数据集普遍分辨率低、种类单一,限制了模型的性能。ViViD构建了一个高分辨率、种类丰富的数据集,显著提升了模型的表现。