什么是GaussianVTON
GaussianVTON通过图像提示进行多阶段高斯溅射编辑实现3D人体虚拟试穿,实现高效的人类环境通过重构和编辑在试戴应用程序中进行交互多视点图像。方法首次使用了图像提示实现更精确和定制的3D高斯泼洒编辑。
与现有的依赖文本提示的作品不同。对于3D编辑,例如GaussianEditor,GaussianVTON避免了错误地替换服装并影响服装的其他区域,以及导致背景和面部特征等其他元素的变化。
此外,与文本驱动相比3D服装人体生成或重建工作如HumanGaussian,GaussianVTON是基于真实的人体图像,避免导致奇怪的体型,并符合提示。
GaussianVTON相关链接
Code:https://github.com/HaroldChen19/GaussianVTON
Paper:https://arxiv.org/pdf/2405.07472
Data:https://haroldchen19.github.io/gsvton/
GaussianVTON论文阅读
GaussianVTON:通过图像提示进行多阶段高斯溅射编辑实现 3D 人体虚拟试穿
GaussianVTON摘要
电子商务的日益流行凸显了虚拟试穿 (VTON) 的重要性。然而,以前的研究主要集中在 2D 领域,并且严重依赖大量数据进行训练。3D VTON 的研究主要集中在服装与体形的兼容性上,这是 2D VTON 中广泛涵盖的一个主题。得益于 3D 场景编辑的进步,2D 扩散模型现已通过多视点编辑适应 3D 编辑。
在这项工作中,我们提出了 GaussianVTON,这是一种创新的 3D VTON 管道,将高斯溅射 (GS) 编辑与 2D VTON 相结合。为了促进从 2D 到 3D VTON 的无缝过渡,我们首次提出仅使用图像作为 3D 编辑的编辑提示。为了进一步解决编辑过程中面部模糊、服装不准确和视点质量下降等问题,我们设计了一个三阶段细化策略来逐步缓解潜在问题。此外,我们引入了一种称为“编辑调用重建 (ERR)”的新编辑策略,以解决以前的编辑策略在导致复杂几何变化方面的局限性。
我们的全面实验证明了 GaussianVTON 的优越性,为 3D VTON 提供了新颖的视角,同时也为图像提示的 3D 场景编辑建立了一个新颖的起点。
GaussianVTON方法
GaussianVTON 框架概述。首先将重建的3D场景与它的关联数据:一系列捕获的图像,它们对应的相机姿势,以及相机校准参数。其主要思想是利用图像提示来指导3D场景的编辑过程,实现虚拟 试用。
三个阶段的细化。我们设计的策略演示了在使用2D VTON模型时遇到的突出问题的顺序缓解。LaDI-VTON)用于图像编辑,包括面部模糊,服装不准确,图像质量下降。
GaussianVTON实验
定性比较。我们要求GPT-4生成目标服装的详细描述,然后是格式“Turn his upper body into ...”作为InstructN2N和GaussianEditor的文本提示符。我们采用了GaussianEditor中性能优越的 GSEditor-iN2N 作为比较模型。
GaussianVTON的广泛结果。为了进一步验证该框架的有效性,我们还采用了多视图图像 这进一步证明了采用GaussianVTON自定义数据的优越性和能力。
消融研究。该图描述了我们提出的编辑策略ERR与IN2N中的IterativeDU的结果(如左侧所示)。在右边,展示了我们的三阶段细化过程的渲染结果:阶段1维护面部 第二阶段使用分层稀疏编辑优化服装,第三阶段优化整体图像质量。
GaussianVTON结论
在这项工作中,我们提出了一种新颖的3D 虚拟试戴(VTON)管道利用3D高斯飞溅编辑,这代表了图像提示3D编辑和3D VTON的重大进步。
我们的方法通过对真实场景的重构和剪辑为用户提供了真实的试穿体验。来解决从2D过渡到3d的固有挑战。我们的方法采用了三个阶段的细化 策略进行3D编辑。
此外,我们还引入了专门的编辑被称为编辑回忆重建(ERR)的策略增强渲染平滑性,防止由于复杂几何变化而产生的不良工件。