什么是FoleyCrafter
FoleyCrafter是一个基于文本的视频到音频生成框架,可以生成与输入视频在语义上相关并且在时间上同步的高质量音频。由上海人工智能实验室和香港中文大学(深圳)的团队联合开发。
FoleyCrafter Github:https://github.com/open-mmlab/FoleyCrafter
FoleyCrafter 项目体验:https://huggingface.co/spaces/ymzhang319/FoleyCrafter
FoleyCrafter研究方法
FoleyCrafter 构建于一个预训练的文本到音频(T2A)生成器之上,确保了高质量的音频合成。它包括两个主要组件:语义适配器(S.A.)和时间控制器,后者包括时间戳检测器(T.D.)和时间适配器(T.A.)。语义适配器和时间控制器都是可训练模块,输入视频以合成音频,并通过音频监督进行优化。T2A 模型保持固定,以维持其高质量音频合成的既定能力。