FoleyCrafter - 一个基于文本的视频到音频生成框架

AI音频工具 AI配音合成（文转音，语音克隆） AI音频工具

FoleyCrafter

FoleyCrafter是一个基于文本的视频到音频生成框架，可以生成与输入视频在语义上相关并且在时间上同步的高质量音频。

标签：FoleyCrafter

链接直达手机查看

什么是FoleyCrafter

FoleyCrafter是一个基于文本的视频到音频生成框架，可以生成与输入视频在语义上相关并且在时间上同步的高质量音频。由上海人工智能实验室和香港中文大学（深圳）的团队联合开发。

FoleyCrafter Github：https://github.com/open-mmlab/FoleyCrafter

FoleyCrafter 项目体验：https://huggingface.co/spaces/ymzhang319/FoleyCrafter

FoleyCrafter研究方法

FoleyCrafter 构建于一个预训练的文本到音频（T2A）生成器之上，确保了高质量的音频合成。它包括两个主要组件：语义适配器（S.A.）和时间控制器，后者包括时间戳检测器（T.D.）和时间适配器（T.A.）。语义适配器和时间控制器都是可训练模块，输入视频以合成音频，并通过音频监督进行优化。T2A 模型保持固定，以维持其高质量音频合成的既定能力。