AI开源项目 AI开源项目 视觉模型
Vary-toy

Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建,旨在提高图像感知能力。

广告也精彩
广告也精彩

Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建,旨在提高图像感知能力。Vary-toy在多项基准测试中取得显著成绩,包括DocVQA、ChartQA、RefCOCO等。其小尺寸使其成为资源有限研究人员的实用基准。研究人员计划公开发布代码,推动进一步的研究和采纳。

项目地址:https://varytoy.github.io/
开源地址:https://github.com/Ucas-HaoranWei/Vary-toy
论文地址:https://arxiv.org/abs/2401.12503

Vary-toy
来源:www.aiug.cn

相关导航