什么是Vitron
Vitron由昆仑万维2050全球研究院、新加坡国立大学和新加坡南洋理工大学团队联合发布并开源的通用像素级视觉多模态大语言模型。
Vitron作为一个统一的像素级视觉多模态大语言模型,它能够全面处理从图像到视频,从理解到生成,再到编辑的所有任务。实现了从低层次到高层次的视觉任务的全面支持。同时,Vitron支持与用户的连续操作,实现了灵活的人机互动,展示了通向更统一的视觉多模态通用模型的巨大潜力。
开源代码:https://github.com/SkyworkAI/Vitron
论文链接:https://is.gd/aGu0VV
Vitron模型的功能和特点。
图的主要部分:
1. 低层视觉语义(Low-level Visual Semantics):图的左边区域,主要涉及视觉分割和定位。
2. 高层视觉语义(High-level Visual Semantics):图的右边区域,主要涉及像素级的视觉理解。
详细说明:
1. 视觉分割和定位(Vision Segmentation & Grounding)
• Panoptic、Instance、Semantic、Referring:分别指全景分割、实例分割、语义分割和指代分割,这些都是对图像中物体进行不同粒度的分割。
• Phrase Grounding:根据短语定位图像中的对应部分。
• Video Grounding:在视频中定位和识别特定对象。
• Video Object Segmentation (Tracking):在视频中分割和跟踪目标对象。
2. 像素级视觉理解(Pixel-level Vision Understanding)
• Image/Video Captioning:为图像或视频生成描述性文本。
• Referring Captioning:生成指代性描述。
• Image QA & Video QA:图像和视频问答。
• Language-Image/Video Retrieval:语言和图像/视频检索。
• Video Temporal Grounding:在视频中定位特定时间段的事件。
3. 视觉合成和生成(Vision Synthesis & Generation)
• Text-to-Image/Video Generation:根据文本生成图像或视频。
• Image-to-Video Generation:根据图像生成视频。
4. 视觉编辑和修复(Vision Editing & Inpainting)
• Adding/Removing:在图像中添加或移除对象。
• Replacing/Moving:替换或移动对象。
• Style Changing/Color Changing:改变图像风格或颜色。
支持功能:
• Pixel-aware User Interaction:支持像素级别的用户交互。
• Easy Module Extensibility:模块化扩展的方便性。
• Vision Unification & Image-Video Interconversion:统一的视觉处理以及图像和视频的互转换。
• Multi-turns Context & Conversation:多轮对话和上下文理解。