Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建,旨在提高图像感知能力。Vary-toy在多项基准测试中取得显著成绩,包括DocVQA、ChartQA、RefCOCO等。其小尺寸使其成为资源有限研究人员的实用基准。研究人员计划公开发布代码,推动进一步的研究和采纳。
项目地址:https://varytoy.github.io/
开源地址:https://github.com/Ucas-HaoranWei/Vary-toy
论文地址:https://arxiv.org/abs/2401.12503