Vary-toy | AIUG

AI开源项目 AI开源项目视觉模型

Vary-toy

Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建，旨在提高图像感知能力。

链接直达手机查看

Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建，旨在提高图像感知能力。Vary-toy在多项基准测试中取得显著成绩，包括DocVQA、ChartQA、RefCOCO等。其小尺寸使其成为资源有限研究人员的实用基准。研究人员计划公开发布代码，推动进一步的研究和采纳。

项目地址：https://varytoy.github.io/
开源地址：https://github.com/Ucas-HaoranWei/Vary-toy
论文地址：https://arxiv.org/abs/2401.12503

相关导航

ImagetoMusicV2

ImagetoMusicV2是一个图片生成音乐的在线AI工具，利用先进的机器学习算法和神经网络模型，通过对图像的特征进行分析和提取，自动生成相应的音乐，生成音频文件。

CelebA-HQ数据集

CelebA-HQ数据集是CelebA数据集的高质量版本，由30,000张分辨率为1024x1024的人脸图像组成.

VideoCrafter2

强大的视频处理工具

DINOv2

DINOv2是一种由Meta AI开发的自监督视觉变换器模型，旨在通过自我监督学习方法训练高性能的计算机视觉模型。

Handfit-3K数据集

Handfit-3K数据集是一个专门用于虚拟试穿（Virtual Try-on）的公开数据集，主要用于任意手部姿势遮挡情况下的手部遮挡场景。该数据集由VTON-HandFit项目团队自行收集，并在多个评估中表现出色。

HQ-Edit数据集

HQ-Edit 是由加州大学圣克鲁斯分校的研究团队创建的一个高质量、基于指令的图像编辑数据集。