阿里通义实验室 LHM 技术：快速将照片转换为动画

AI资讯 4周前硕雀

35 0 0

阿里通义实验室的LHM（Large Animatable Human Reconstruction Model，大型可动画人体重建模型）技术是一项创新的AI技术，专注于从单张图像快速生成高保真的3D可动画人体模型，并进一步实现动画生成。以下是该技术的详细介绍：

从单张图像生成可动画化的3D人体模型是一个极具挑战性的任务，主要难点在于几何、外观和变形分离的准确性。传统方法通常依赖于合成的3D扫描数据进行训练，这限制了其泛化能力。LHM技术通过创新的多模态变换器架构和头部特征金字塔编码方案，显著提升了重建精度和效率。

多模态变换器架构：LHM利用多模态变换器架构，结合3D高斯散射表示法，有效融合了3D位置特征和2D图像特征。这种架构能够高效地处理复杂的几何和纹理信息。
头部特征金字塔编码：通过头部特征金字塔编码方案，LHM能够精准捕捉面部和衣物的细节，从而生成逼真的动画人体模型。
训练策略：LHM设计了一套训练策略，使其能够直接从互联网视频中学习人体特征，泛化出3D先验，避免了对3D数据的依赖。

经过大量实验验证，LHM在生成逼真且可动画化的3D人体模型方面表现优异，优于现有方法。其在不同场景和光照条件下的泛化能力也得到了验证。

阿里通义实验室已将LHM技术开源，并开放在线演示平台。这不仅推动了技术的普及，也为研究人员和开发者提供了实验和创新的基础。

与其他类似技术相比，LHM的优势在于其轻量化设计和高效性。例如，AnimateAnyone技术通过扩散模型和姿态引导器生成动态视频，但需要输入音频或舞蹈视频作为辅助。而LHM仅需一张静态图像即可生成动画化的人体模型，更加灵活和高效。

LHM技术的应用前景广阔，未来可能进一步扩展到更复杂的场景和角色动画领域。此外，结合其他AI技术（如语音生成视频的EMO模型），LHM有望实现更丰富的交互式内容创作。

阿里通义实验室的LHM技术通过创新的多模态架构和高效的训练策略，成功解决了从单张图像生成高保真3D可动画人体模型的难题，并在动画生成、内容创作等领域展现了巨大的潜力

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！