AI音频工具 AI配音合成(文转音,语音克隆) AI音频工具
FoleyCrafter

FoleyCrafter是一个基于文本的视频到音频生成框架,可以生成与输入视频在语义上相关并且在时间上同步的高质量音频。

标签:
广告也精彩
广告也精彩

什么是FoleyCrafter

FoleyCrafter是一个基于文本的视频到音频生成框架,可以生成与输入视频在语义上相关并且在时间上同步的高质量音频。由上海人工智能实验室和香港中文大学(深圳)的团队联合开发。

FoleyCrafter Github:https://github.com/open-mmlab/FoleyCrafter

FoleyCrafter 项目体验:https://huggingface.co/spaces/ymzhang319/FoleyCrafter

FoleyCrafter研究方法

FoleyCrafter 构建于一个预训练的文本到音频(T2A)生成器之上,确保了高质量的音频合成。它包括两个主要组件:语义适配器(S.A.)和时间控制器,后者包括时间戳检测器(T.D.)和时间适配器(T.A.)。语义适配器和时间控制器都是可训练模块,输入视频以合成音频,并通过音频监督进行优化。T2A 模型保持固定,以维持其高质量音频合成的既定能力。

来源:www.aiug.cn

相关导航