字节开源高效口型同步扩散模型LatentSync

AI资讯 6个月前硕雀

88 0 0

字节跳动与北京交通大学联合提出了一种名为LatentSync的高效口型同步扩散模型。该模型是一种基于音频条件化的潜在扩散模型，旨在提升唇音同步性和时间一致性，无需依赖中间运动表示。与传统的基于像素空间扩散或两阶段生成的方法不同，LatentSync利用稳定扩散的强大能力，直接模拟复杂的音频-视觉相关性，从而生成动态且逼真的说话视频。

LatentSync的核心创新在于其端到端的框架设计，通过Temporal Representation Alignment (TREPA)技术，使用自监督视频模型提取的时间表示对生成帧与真实帧进行对齐，从而显著增强时间一致性。此外，该模型还解决了SyncNet收敛问题，通过研究模型架构、训练超参数和数据预处理方法，提升了模型的收敛性。在HDTF测试集上，LatentSync将SyncNet的准确率从91%提高到了94%，并在HDTF和VoxCeleb2数据集上的多种指标上超越了最先进的唇部同步方法。

LatentSync的框架基于图像到图像的修复技术，输入包括掩码图像、参考图像以及音频特征。在训练过程中，模型首先通过两个阶段进行训练：第一阶段不进行像素空间解码，仅学习视觉特征；第二阶段则加入SyncNet损失，以进一步优化口型同步精度。此外，LatentSync还采用了混合噪声模型和自注意力机制，以提高时间一致性和生成质量。

LatentSync通过结合音频条件化的潜在扩散模型和先进的时间一致性增强技术，实现了高效且精确的口型同步效果，为视频翻译、虚拟人生成等领域提供了强大的技术支持

LatentSync 口型同步扩散模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

字节开源高效口型同步扩散模型LatentSync

Create AI 开源 Ruyi-Mini-7B 图生视频模型，专为消费级 GPU 设计

英伟达推出首个生成式世界基础模型Cosmos