Ovis - 阿里国际AI团队开发的一款先进的多模态人工智能模型

AI开源项目 AI开源项目多模态模型

Ovis

多模态大模型Ovis是由阿里国际AI团队开发的一款先进的多模态人工智能模型。该模型在多个领域展现出色的表现，包括数学推理问答、物体识别、文本提取和复杂任务决策等

标签：Ovis 多模态大模型

链接直达手机查看

什么是Ovis

多模态大模型Ovis是由阿里国际AI团队开发的一款先进的多模态人工智能模型。该模型在多个领域展现出色的表现，包括数学推理问答、物体识别、文本提取和复杂任务决策等。Ovis能够处理和理解多种不同类型的数据输入，如文本和图像，这使得它在图像理解任务上达到了SOTA（最新技术水平）。

Ovis的独特之处在于其强大的多模态能力，能够跨越多种数据模态的界限，实现多样化的功能。例如，Ovis可以准确回答数学问题，识别花的品种，支持多种语言的文本提取，甚至可以识别手写字体和复杂的数学公式。此外，Ovis还展示了在视觉和文本结合上的技术突破，能够识别手写文案并进行精准翻译，处理复杂的数学公式，并通过识别食物图片生成详细的菜谱。

Ovis在多模态权威综合评测平台OpenCompass上取得了优异的成绩，特别是在30亿参数以下的模型中综合得分排名第一，超越了其他主流模型。Ovis1.6-Gemma2-9B版本在多项任务中表现出色，甚至超过了闭源的GPT-4o-mini模型。

阿里国际AI团队已经将Ovis的数据、模型、训练以及推理代码全部开源，确保研究的可复现性，并供全球的研究者和开发者共同探索与改进。这一举措不仅展现了阿里巴巴在AI技术方面的雄厚实力，更预示着人工智能将在多模态任务处理上迈入新的阶段。

Ovis相关链接：

论文arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
在线Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

相关导航

DarkFace数据集

DarkFace数据集（DARK FACE dataset）是一个专门用于低光照条件下的面部检测的数据集。该数据集包含6000张真实世界中的低光照图像，这些图像在夜间拍摄于教学楼、街道、桥梁、立交桥和公园等地点，并且所有图像都标注了人脸的边界框，作为主要的训练和/或验证集。此外，还提供了9000张未标注的低光照图像，以及一个独特的789对低光照图像配对集。

ChatPaper

一款强大的论文总结工具

PIXART-α

一种基于Transformer的文本到图像生成模型

Mistral Large 2

Mistral Large 2是法国人工智能初创公司Mistral AI最新发布的大型语言模型，具有1230亿参数和128K的上下文窗口。该模型在代码生成、数学和推理方面表现出色，并且支持多种编程语言和多语言处理能力。

TripoSG

TripoSG 是由 VAST AI 研究团队推出的一款高保真 3D 形状生成模型，其核心功能是将单张图像转化为高质量的 3D 网格模型。

NEXET数据集

NEXET数据集是由以色列公司Nexar发布的一个用于自动驾驶技术发展的数据集。该数据集包含来自全球80个国家的超过5万张照片，展示了不同天气和时间条件下道路状况。