Stable Diffusion 3.5是Stability AI最新发布的AI图像生成模型,相较于前代产品SD3,它在图像生成的逼真度、提示响应和文本渲染方面都有显著提升。
Flash-VStream是一种基于记忆机制的视频-语言模型,旨在实时处理和理解长视频流,并能够同时响应用户查询。
Stable Diffusion XL(SDXL)是Stability AI公司推出的一款最新图像生成模型,旨在提供更高质量和更逼真的图像输出。
VideoLLaMA2是由阿里巴巴集团达摩院团队开发的新一代视频理解模型。它在空间-时间建模和音频理解方面取得了显著进步,为用户提供了更为精准和全面的视频内容分析能力。
MVGFormer:用于3D人体姿态估计的多视角几何Transformers
Open Glass AI是一个开源项目,旨在将任何普通眼镜改装成具有人工智能功能的智能眼镜。
SignLLM项目由全球多所顶尖大学联合发起,旨在创建首个全面性的多语种手语数据集Prompt2Sign,并基于此数据集开发了首个多语种手语生成(SLP)模型。
PaliGemma是谷歌推出的一款开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。
VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型
DINOv2是一种由Meta AI开发的自监督视觉变换器模型,旨在通过自我监督学习方法训练高性能的计算机视觉模型。
OpenPose是一个开源的人体姿态识别工具,它基于卷积神经网络和监督学习开发,使用Caffe作为其框架。OpenPose能够实时地检测图像中的人体关键点,包括面部表情、躯干、四肢以及手指的跟踪,适用于单人或多人场景。它能够检测多达135个关键点,包括身体、手势和人脸的关键点。
PhotoMaker是一款由腾讯实验室出品的AI图像生成工具,它主要利用了堆叠ID嵌入的技术来生成定制化的逼真人体照片。这项技术能够将用户的输入图像编码成堆叠ID嵌入,从而保留ID信息并容纳不同ID的特征,实现个性化的图像生成。
InsightFace 是一个开源的 2D&3D 深度人脸分析库,通过深度卷积神经网络和大规模数据集进行训练,它提供了高性能和准确性的人脸识别模型。
Stable Cascade作为一款新型的文本到图像转换模型,凭借其创新的三阶段架构,标志着人工智能领域的一个重要里程碑。基于Würstchen架构,此模型不仅在质量、灵活性、细化调整和效率方面树立了新的标准,而且特别注重打破硬件限制,使更多的研究人员和消费者能够轻松接触和训练高级AI模型。
Upscayl是一款开源免费的AI图片无损放大工具。它采用先进的人工智能模型,能够将低分辨率的图像进行质量提升,通过应用先进的算法和深度学习技术能够以更高的精度和细节还原能力,将模糊的图像转化为超清晰的图像。
Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建,旨在提高图像感知能力。
适用于视频合成、图像到视频、视频修补、风格化生成等内容创作和视频编辑应用
ActAnywhere是一个用于自动生成与前景主体运动和外观相符的视频背景的生成模型。该任务涉及合成与前景主体运动和外观相一致的背景,同时也符合艺术家的创作意图。ActAnywhere利用大规模视频扩散模型的力量,并专门定制用于此任务。ActAnywhere以一系列前景主体分割作为输入,以描述所需场景的图像作为条件,生成与条件帧相一致的连贯视频,同时实现现实的前景和背景交互。
Stable Diffusion是stability.ai开源的图像生成模型。Stable Diffusion能够从文本描述中生成详细的图像,它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。
强大的视频处理工具
一种基于Transformer的文本到图像生成模型
针对视频自动配音设计的数据集
将视频中的角色替换为3D化身
一款强大的论文总结工具
视频模型