Vitron - 通用像素级视觉多模态大语言模型。

Vitron

Vitron由昆仑万维2050全球研究院、新加坡国立大学和新加坡南洋理工大学团队联合发布并开源的通用像素级视觉多模态大语言模型。

标签：Vitron

链接直达手机查看

什么是Vitron

Vitron由昆仑万维2050全球研究院、新加坡国立大学和新加坡南洋理工大学团队联合发布并开源的通用像素级视觉多模态大语言模型。

Vitron作为一个统一的像素级视觉多模态大语言模型，它能够全面处理从图像到视频，从理解到生成，再到编辑的所有任务。实现了从低层次到高层次的视觉任务的全面支持。同时，Vitron支持与用户的连续操作，实现了灵活的人机互动，展示了通向更统一的视觉多模态通用模型的巨大潜力。

开源代码：https://github.com/SkyworkAI/Vitron

论文链接：https://is.gd/aGu0VV

图的主要部分：
1. 低层视觉语义（Low-level Visual Semantics）：图的左边区域，主要涉及视觉分割和定位。

2. 高层视觉语义（High-level Visual Semantics）：图的右边区域，主要涉及像素级的视觉理解。

详细说明：
1. 视觉分割和定位（Vision Segmentation & Grounding）
• Panoptic、Instance、Semantic、Referring：分别指全景分割、实例分割、语义分割和指代分割，这些都是对图像中物体进行不同粒度的分割。

• Phrase Grounding：根据短语定位图像中的对应部分。

• Video Grounding：在视频中定位和识别特定对象。

• Video Object Segmentation (Tracking)：在视频中分割和跟踪目标对象。

2. 像素级视觉理解（Pixel-level Vision Understanding）
• Image/Video Captioning：为图像或视频生成描述性文本。

• Referring Captioning：生成指代性描述。

• Image QA & Video QA：图像和视频问答。

• Language-Image/Video Retrieval：语言和图像/视频检索。

• Video Temporal Grounding：在视频中定位特定时间段的事件。

3. 视觉合成和生成（Vision Synthesis & Generation）
• Text-to-Image/Video Generation：根据文本生成图像或视频。

• Image-to-Video Generation：根据图像生成视频。

4. 视觉编辑和修复（Vision Editing & Inpainting）
• Adding/Removing：在图像中添加或移除对象。

• Replacing/Moving：替换或移动对象。

• Style Changing/Color Changing：改变图像风格或颜色。

支持功能：
• Pixel-aware User Interaction：支持像素级别的用户交互。

• Easy Module Extensibility：模块化扩展的方便性。

• Vision Unification & Image-Video Interconversion：统一的视觉处理以及图像和视频的互转换。

• Multi-turns Context & Conversation：多轮对话和上下文理解。

AuraFlow AI 是一个开源的大型基于流的文本到图像生成模型。

白日梦是一款人工智能短视频创作工具。它利用人工智能技术，可以自动生成剧情类视频的脚本和分镜，并从海量素材库中挑选合适的素材进行剪辑，帮助用户快速创作出高质量的短视频。

img2img-turbo是一款功能强大的AI图像处理工具，能够快速、准确地将图片转换成不同风格的图片。

Stable Diffusion XL（SDXL）是Stability AI公司推出的一款最新图像生成模型，旨在提供更高质量和更逼真的图像输出。

火山翻译是字节跳动旗下企业级技术服务平台火山引擎的核心AI中台能力之一，由北京火山引擎科技有限公司开发，依托百亿语料数据积累和前沿技术创新，提供多语种、多领域翻译技术与服务。火

BgEraser一个专注于 AI 抠图网站