JoyVASA是京东健康国际公司开源的一个音频驱动的数字人头项目,基于扩散模型技术,能够根据音频信号生成与音频同步的面部动态和头部运动。
JoyHallo是一款由京东推出的数字人模型,专为普通话视频生成而设计。该模型能够根据音频生成逼真的说话视频,特别适合处理普通话的复杂口型和语调。
HeadGAP是一种由字节跳动和上海科技大学共同开发的3D头像生成模型,能够从少量甚至单张目标人物的图片中快速创建出逼真且可动画化的3D头像。
CyberHost是一个端到端音频驱动的人类动画框架,能够确保手的完整性、身份的一致性和自然的运动。
LOOPY是由字节跳动和浙江大学的科研团队联合开发的一款基于音频驱动的视频扩散模型,旨在利用数据中的长期运动信息学习自然运动模式,提高音频与肖像运动的相关性,从而生成更逼真、高质量的肖像视频。
什么是CanvaAICanvaAI是Canva平台推出的一系列基于人工智能的设计工具,旨在帮助用户更轻松[…]
DeepLiveCam是一款开源的AI实时换脸和视频深伪工具,它结合了多种技术,能够实现高精度的人脸替换和深度伪造。
ER-NeRF是一种基于NeRF(神经辐射场)的新型数字人生成技术,主要用于生成高保真度的动态头部重建和实时渲染。ER-NeRF在多个方面进行了改进和优化,使其在数字人模型生成中表现出色。
ReHiFace-S 是由硅基智能创建的实时高保真换脸算法,其全称为“Real Time High-Fidelity Faceswap”。该项目通过开源数字人生成功能,允许开发者轻松生成大规模的数字人,并实现视频中脸部的实时替换。
StyleSync是一种高保真、通用和个性化的唇形同步框架,主要基于风格的生成器来实现精确的口型同步。
Video-ReTalking是一种基于AI的创新技术,主要用于实现视频中人物嘴型与输入声音的同步。这项技术可以自动调整视频中人物的嘴型和表情,使其与音频内容完全匹配,并且能够生成高质量、自然的输出视频。
ReSyncer是一个由清华大学、百度公司、中关村实验室和南洋理工大学的研究人员共同推出的新技术框架,用于创建统一的音频-视觉同步的面部表演者系统。ReSyncer不仅可以实现更高稳定性和质量的口型同步,而且还支持创建虚拟表演者所必需的各种有趣属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换,甚至换脸。
EmoTalk3D是一个专注于3D虚拟人头合成的数字人框架,旨在解决传统3D人头合成中视角一致性和情感表达不足的问题。
Vimi是商汤科技推出的一款可控人物视频生成AI模型,基于其强大的日日新大模型能力。该产品主要面向C端用户,能够通过动作视频、动画、声音和文字等多种驱动元素来生成与目标动作一致的人物类视频。
Hedra一款由斯坦福大学研究团队倾力打造的AI对口型视频生成神器,它结合前沿的人工智能技术,能够将文本、图片和语音转化为高度逼真的动态视频。无论是真人还是动漫,甚至是物品,Hedra都能通过你上传的音频生成匹配的口型!
EchoMimic是由蚂蚁集团研究团队开发的一款先进的人像图像动画模型,旨在通过音频和面部特征点生成逼真的肖像视频。
DreamAvatar是由美图公司开发的一款AI数字人生成工具,旨在通过人工智能技术帮助用户快速创建逼真、个性化和多样化的数字人形象。
LivePortrait是一款基于AI技术的肖像动画工具,能够从单一静态图像生成生动的动态视频。该工具特别适合需要快速生成高质量肖像动画的创作者和设计师。
Fay是一个完整的AI数字人开源项目,包含Fay控制器及数字人模型。它提供了灵活的模块化设计,使开发人员能够定制和组合各种功能模块,包括情绪分析、NLP处理、语音合成和语音输出等。
DUIX 是由硅基智能开发的数字人智能交互平台,开源的2D真人级、AIGC实时渲染数字人模型,支持在Android和iOS设备上快速部署。
Hallo是一款AI 对口型肖像视频生成框架。全新的AI图片数字人,上传一张照片即可让照片开口说话。
InstructAvatar是一个创新的头像生成模型,它通过自然语言的引导,允许用户对2D头像的情感和面部动作进行精细控制。
Vach是一个开源项目,旨在通过流式数字人技术,实现音视频同步对话,并且已经达到了接近商用的效果。它不仅能够进行文本交互,还能通过语音进行交互,这使得它在多种场景下都具有广泛的应用潜力。
SyncTalk可以合成同步说话的头像视频,它采用三平面哈希表示来维护主体身份。可以生成同步的嘴唇运动、面部表情和稳定的头部姿势,并恢复头发细节以创建高分辨率视频。
Easy-Wav2Lip是一款基于Wav2Lip技术优化改进的AI数字人制作工具。该工具能够让视频中的人物根据输入的音频生成匹配的唇形动作,实现口型与语音同步的效果。这项技术不仅适用于静态图像,还能处理动态视频。
AniTalker由上海交通大学X-LANCE实验室与AISpeech Ltd联合研发的视频框架,通过静态肖像和输入的音频转换成栩栩如生的动画谈话视频,
必剪Studio是B站推出的一款免费AI数字分身定制和视频创作工具。
VASA-1专注于实时生成与音频相匹配的逼真人脸动画人工智能模型。
MuseTalk是一个基于深度学习的唇同步模型,它能够根据输入的音频实时调整视频中人物的唇部动作,使其与音频完美同步。
EDTalk是一个高效的情感演讲头部合成框架,旨在通过解耦合技术实现对嘴型、头部姿势和情绪表达的个别操作。