INFP--是一个基于音频驱动的交互式数字人生成框架

AI视频工具 AI数字人 AI视频工具

INFP

字节跳动的数字人项目——INFP，是一个基于音频驱动的交互式数字人生成框架，旨在解决二元对话中自然角色切换与逼真交互式视频生成的问题。

标签：AI数字人

链接直达手机查看

字节跳动的数字人项目——INFP，是一个基于音频驱动的交互式数字人生成框架，旨在解决二元对话中自然角色切换与逼真交互式视频生成的问题。该项目的研究重点在于如何在多轮对话中实现自然的角色切换（从说话到倾听或从倾听到说话），以及如何在不进行手动角色分配或显式角色切换的情况下生成逼真的交互式视频。

INFP框架包括两个主要阶段：基于运动的头部模仿阶段和音频引导的运动生成阶段。在第一阶段，该框架通过学习将现实生活中的对话视频中的面部交流行为投影到低维运动潜在空间，并使用这些潜在代码来动画化静态肖像图像。为了确保运动潜在空间的丰富性和多样性，该阶段使用大量真实对话视频进行训练。

第二阶段则通过去噪学习将输入的双通道音频映射到运动潜在代码，从而在交互场景中实现音频驱动的头部生成。这种设计使得INFP能够在二元对话中动态地驱动代理肖像在说话和倾听状态之间交替，无需手动分配角色和角色切换。

INFP还提出了一个大规模双人对话数据集DyConv，以支持该研究领域的进步。实验结果表明，INFP在双人对话交互中角色转换及头部生成方面具有优越的性能和有效性。

INFP是一个创新的音频驱动头部生成框架，专为双人对话交互设计，能够自动在对话音频引导下进行角色转换，从而实现自然流畅的对话互动体验。

INFP相关链接：

论文：https://arxiv.org/pdf/2412.04037

项目：https://grisoon.github.io/INFP

EchoMimic是由蚂蚁集团研究团队开发的一款先进的人像图像动画模型，旨在通过音频和面部特征点生成逼真的肖像视频。

适用于视频合成、图像到视频、视频修补、风格化生成等内容创作和视频编辑应用

Artflow 是一个AI驱动的动画视频创作工具，它可以在浏览器中运行。用户只需选择角色和场景，编写对话，找到完美的声音，即可生成动画视频，AI 就可以将故事带入生活。

一款在线换脸工具

StreamingT2V是PicsArt推出的一款AI视频生成模型，能够根据文本描述生成长达2分钟的视频

Duix.com 是硅基智能推出的一款新一代数字人实时交互平台，其全称为 Dialogue User Interface System（对话用户界面系统）