什么是Ovis
多模态大模型Ovis是由阿里国际AI团队开发的一款先进的多模态人工智能模型。该模型在多个领域展现出色的表现,包括数学推理问答、物体识别、文本提取和复杂任务决策等。Ovis能够处理和理解多种不同类型的数据输入,如文本和图像,这使得它在图像理解任务上达到了SOTA(最新技术水平)。
Ovis的独特之处在于其强大的多模态能力,能够跨越多种数据模态的界限,实现多样化的功能。例如,Ovis可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。此外,Ovis还展示了在视觉和文本结合上的技术突破,能够识别手写文案并进行精准翻译,处理复杂的数学公式,并通过识别食物图片生成详细的菜谱。
Ovis在多模态权威综合评测平台OpenCompass上取得了优异的成绩,特别是在30亿参数以下的模型中综合得分排名第一,超越了其他主流模型。Ovis1.6-Gemma2-9B版本在多项任务中表现出色,甚至超过了闭源的GPT-4o-mini模型。
阿里国际AI团队已经将Ovis的数据、模型、训练以及推理代码全部开源,确保研究的可复现性,并供全球的研究者和开发者共同探索与改进。这一举措不仅展现了阿里巴巴在AI技术方面的雄厚实力,更预示着人工智能将在多模态任务处理上迈入新的阶段。
Ovis相关链接:
- 论文arXiv: https://arxiv.org/abs/2405.20797
- Github: https://github.com/AIDC-AI/Ovis
- Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
- 在线Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B