AI开源项目 AI开源项目 多模态模型
Ovis

多模态大模型Ovis是由阿里国际AI团队开发的一款先进的多模态人工智能模型。该模型在多个领域展现出色的表现,包括数学推理问答、物体识别、文本提取和复杂任务决策等

标签:
广告也精彩
广告也精彩

什么是Ovis

多模态大模型Ovis是由阿里国际AI团队开发的一款先进的多模态人工智能模型。该模型在多个领域展现出色的表现,包括数学推理问答、物体识别、文本提取和复杂任务决策等。Ovis能够处理和理解多种不同类型的数据输入,如文本和图像,这使得它在图像理解任务上达到了SOTA(最新技术水平)。

Ovis的独特之处在于其强大的多模态能力,能够跨越多种数据模态的界限,实现多样化的功能。例如,Ovis可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。此外,Ovis还展示了在视觉和文本结合上的技术突破,能够识别手写文案并进行精准翻译,处理复杂的数学公式,并通过识别食物图片生成详细的菜谱。

Ovis在多模态权威综合评测平台OpenCompass上取得了优异的成绩,特别是在30亿参数以下的模型中综合得分排名第一,超越了其他主流模型。Ovis1.6-Gemma2-9B版本在多项任务中表现出色,甚至超过了闭源的GPT-4o-mini模型。

阿里国际AI团队已经将Ovis的数据、模型、训练以及推理代码全部开源,确保研究的可复现性,并供全球的研究者和开发者共同探索与改进。这一举措不仅展现了阿里巴巴在AI技术方面的雄厚实力,更预示着人工智能将在多模态任务处理上迈入新的阶段。

Ovis相关链接:

 

来源:www.aiug.cn

相关导航