字节开源高效口型同步扩散模型LatentSync

字节跳动与北京交通大学联合提出了一种名为LatentSync的高效口型同步扩散模型。该模型是一种基于音频条件化的潜在扩散模型,旨在提升唇音同步性和时间一致性,无需依赖中间运动表示。与传统的基于像素空间扩散或两阶段生成的方法不同,LatentSync利用稳定扩散的强大能力,直接模拟复杂的音频-视觉相关性,从而生成动态且逼真的说话视频。

LatentSync的核心创新在于其端到端的框架设计,通过Temporal Representation Alignment (TREPA)技术,使用自监督视频模型提取的时间表示对生成帧与真实帧进行对齐,从而显著增强时间一致性。此外,该模型还解决了SyncNet收敛问题,通过研究模型架构、训练超参数和数据预处理方法,提升了模型的收敛性。在HDTF测试集上,LatentSync将SyncNet的准确率从91%提高到了94%,并在HDTF和VoxCeleb2数据集上的多种指标上超越了最先进的唇部同步方法。

LatentSync的框架基于图像到图像的修复技术,输入包括掩码图像、参考图像以及音频特征。在训练过程中,模型首先通过两个阶段进行训练:第一阶段不进行像素空间解码,仅学习视觉特征;第二阶段则加入SyncNet损失,以进一步优化口型同步精度。此外,LatentSync还采用了混合噪声模型自注意力机制,以提高时间一致性和生成质量。

LatentSync通过结合音频条件化的潜在扩散模型和先进的时间一致性增强技术,实现了高效且精确的口型同步效果,为视频翻译、虚拟人生成等领域提供了强大的技术支持

来源:www.aiug.cn
声明:文章来源于网络,如有侵权请联系删除!