视觉模型 | AIUG

Hi3DGen是一款由中国香港中文大学（深圳）、字节跳动和清华大学联合研发的高精度3D生成框架，旨在将单张2D图像快速转化为高质量、细节丰富的3D模型。其核心技术基于“法线图”作为中间表示，通过创新性地解耦传统3D生成过程，实现了从图像到法线估计、再到几何学习的全流程训练。

TripoSG

TripoSG 是由 VAST AI 研究团队推出的一款高保真 3D 形状生成模型，其核心功能是将单张图像转化为高质量的 3D 网格模型。

DiffSplat

什么是DiffSplatDiffSplat是一个创新的3D生成框架，它能够直接从文本提示或单视图图像生成高质[…]

Stable Diffusion 3.5

Stable Diffusion 3.5是Stability AI最新发布的AI图像生成模型，相较于前代产品SD3，它在图像生成的逼真度、提示响应和文本渲染方面都有显著提升。

Flash-VStream

Flash-VStream是一种基于记忆机制的视频-语言模型，旨在实时处理和理解长视频流，并能够同时响应用户查询。

Stable Diffusion XL（SDXL）

Stable Diffusion XL（SDXL）是Stability AI公司推出的一款最新图像生成模型，旨在提供更高质量和更逼真的图像输出。

MovieDreamer

MovieDreamer是由浙江大学与阿里巴巴集团联合研发的新型视频生成框架。它巧妙地结合了自回归模型的复杂逻辑处理能力和扩散模型的视觉渲染技术，旨在生成具有丰富情节和高视觉保真度的长时视频内容。

VideoLLaMA2

VideoLLaMA2是由阿里巴巴集团达摩院团队开发的新一代视频理解模型。它在空间-时间建模和音频理解方面取得了显著进步，为用户提供了更为精准和全面的视频内容分析能力。

MVGFormer

MVGFormer：用于3D人体姿态估计的多视角几何Transformers

Open Glass

Open Glass AI是一个开源项目，旨在将任何普通眼镜改装成具有人工智能功能的智能眼镜。

SignLLM

SignLLM项目由全球多所顶尖大学联合发起，旨在创建首个全面性的多语种手语数据集Prompt2Sign，并基于此数据集开发了首个多语种手语生成(SLP)模型。

PaliGemma

PaliGemma是谷歌推出的一款开源视觉语言模型，该模型结合了图像处理和语言理解的能力，旨在支持多种视觉语言任务，如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。

VideoGigaGAN

VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率（VSR）模型

DINOv2

DINOv2是一种由Meta AI开发的自监督视觉变换器模型，旨在通过自我监督学习方法训练高性能的计算机视觉模型。

OpenPose

OpenPose是一个开源的人体姿态识别工具，它基于卷积神经网络和监督学习开发，使用Caffe作为其框架。OpenPose能够实时地检测图像中的人体关键点，包括面部表情、躯干、四肢以及手指的跟踪，适用于单人或多人场景。它能够检测多达135个关键点，包括身体、手势和人脸的关键点。

PhotoMaker

PhotoMaker是一款由腾讯实验室出品的AI图像生成工具，它主要利用了堆叠ID嵌入的技术来生成定制化的逼真人体照片。这项技术能够将用户的输入图像编码成堆叠ID嵌入，从而保留ID信息并容纳不同ID的特征，实现个性化的图像生成。

InsightFace

InsightFace 是一个开源的 2D&3D 深度人脸分析库，通过深度卷积神经网络和大规模数据集进行训练，它提供了高性能和准确性的人脸识别模型。

Stable Cascade

Stable Cascade作为一款新型的文本到图像转换模型，凭借其创新的三阶段架构，标志着人工智能领域的一个重要里程碑。基于Würstchen架构，此模型不仅在质量、灵活性、细化调整和效率方面树立了新的标准，而且特别注重打破硬件限制，使更多的研究人员和消费者能够轻松接触和训练高级AI模型。

Upscayl

Upscayl是一款开源免费的AI图片无损放大工具。它采用先进的人工智能模型，能够将低分辨率的图像进行质量提升，通过应用先进的算法和深度学习技术能够以更高的精度和细节还原能力，将模糊的图像转化为超清晰的图像。

Vary-toy

Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建，旨在提高图像感知能力。

Lumiere

适用于视频合成、图像到视频、视频修补、风格化生成等内容创作和视频编辑应用

ActAnywhere

ActAnywhere是一个用于自动生成与前景主体运动和外观相符的视频背景的生成模型。该任务涉及合成与前景主体运动和外观相一致的背景,同时也符合艺术家的创作意图。ActAnywhere利用大规模视频扩散模型的力量，并专门定制用于此任务。ActAnywhere以一系列前景主体分割作为输入，以描述所需场景的图像作为条件，生成与条件帧相一致的连贯视频，同时实现现实的前景和背景交互。