ActAnywhere | AIUG

ActAnywhere

AI开源项目 AI开源项目视觉模型

ActAnywhere

ActAnywhere是一个用于自动生成与前景主体运动和外观相符的视频背景的生成模型。该任务涉及合成与前景主体运动和外观相一致的背景,同时也符合艺术家的创作意图。ActAnywhere利用大……

链接直达手机查看

一键轻松打造你的专属AI应用

无需代码，最快5分钟，一键即可体验DeepSeek满血版、Qwen-max

零门槛、即刻拥有 DeepSeek-R1 满血版

ActAnywhere是一个用于自动生成与前景主体运动和外观相符的视频背景的生成模型。该任务涉及合成与前景主体运动和外观相一致的背景,同时也符合艺术家的创作意图。ActAnywhere利用大规模视频扩散模型的力量，并专门定制用于此任务。ActAnywhere以一系列前景主体分割作为输入，以描述所需场景的图像作为条件，生成与条件帧相一致的连贯视频，同时实现现实的前景和背景交互。该模型在大规模人机交互视频数据集上进行训练。大量评估表明该模型的性能明显优于基准，可以泛化到各种分布样本,包括非人类主体。

链接：https://actanywhere.github.io/

ActAnywhere

需求人群：

"ActAnywhere可用于自动为包含人类或其他主体的视频生成相应的背景,从而减少手工调整的工作量,提高视频制作效率。"

使用场景示例：

- 使用包含人物运动的视频分割序列及海边图片,生成人物在海边奔跑的合成视频

- 使用包含舞蹈动作的视频分割和古代宫殿的图片,生成舞蹈在宫殿里进行的效果

- 使用汽车行驶的视频分割和高楼大厦的图片,生成汽车在城市街景行驶的效果

产品特色：

- 根据输入的前景主体分割序列,可以生成符合条件图像的视频背景

- 生成的背景会与前景主体运动和外观相协调

- 支持以合成的包含主体的帧或者仅包含背景的帧作为条件图像

- 可以生成具有不同摄像机运动的视频背景

相关导航

ChuanhuChatGPT

ChuanhuChatGPT是一个多功能的ChatGPT增强工具，旨在通过提供轻快好用的Web图形界面和多项附加功能，极大扩展了ChatGPT等大语言模型的应用范围。

Gradio是一个开源的Python库，主要用于创建机器学习模型的交互式界面。它允许用户快速地为模型构建一个可视化的、易于使用的Web界面，无需编写任何Web前端代码。

LLaMA-Factory

LLaMA-Factory是一个易于使用的大型语言模型（LLM）微调框架。它支持多种开源的大型语言模型，如 LLaMA、ChatGLM、Falcon 等。

ChatGPT Web Midjourney Proxy

chatgpt-web-midjourney-proxy 项目是在 ChenZhaoYu的基础上进行二次开发的，使用 midjourney-proxy 提供的 midjourney api 作为后端。部署后，可以在基于该开源项目体验 ChatGPT、Midjourney 的功能。

MemFree是一款开源的混合AI搜索引擎，通过整合多种AI模型和搜索引擎，提供高效、多样化的搜索体验。

Resemble Enhance

语音降噪与增强