字节跳动的数字人项目——INFP,是一个基于音频驱动的交互式数字人生成框架,旨在解决二元对话中自然角色切换与逼真交互式视频生成的问题。该项目的研究重点在于如何在多轮对话中实现自然的角色切换(从说话到倾听或从倾听到说话),以及如何在不进行手动角色分配或显式角色切换的情况下生成逼真的交互式视频。
INFP框架包括两个主要阶段:基于运动的头部模仿阶段和音频引导的运动生成阶段。在第一阶段,该框架通过学习将现实生活中的对话视频中的面部交流行为投影到低维运动潜在空间,并使用这些潜在代码来动画化静态肖像图像。为了确保运动潜在空间的丰富性和多样性,该阶段使用大量真实对话视频进行训练。
第二阶段则通过去噪学习将输入的双通道音频映射到运动潜在代码,从而在交互场景中实现音频驱动的头部生成。这种设计使得INFP能够在二元对话中动态地驱动代理肖像在说话和倾听状态之间交替,无需手动分配角色和角色切换。
INFP还提出了一个大规模双人对话数据集DyConv,以支持该研究领域的进步。实验结果表明,INFP在双人对话交互中角色转换及头部生成方面具有优越的性能和有效性。
INFP是一个创新的音频驱动头部生成框架,专为双人对话交互设计,能够自动在对话音频引导下进行角色转换,从而实现自然流畅的对话互动体验。
INFP相关链接:
论文:https://arxiv.org/pdf/2412.04037
项目:https://grisoon.github.io/INFP