AI开源项目

UI库

ChatGPT-Web

ChatGPT-Web是一个基于OpenAI自然语言处理模型的开源项目，旨在提供一个简单易用且功能丰富的界面，让用户能够与先进的自然语言处理模型进行互动。

ChuanhuChatGPT

ChuanhuChatGPT是一个多功能的ChatGPT增强工具，旨在通过提供轻快好用的Web图形界面和多项附加功能，极大扩展了ChatGPT等大语言模型的应用范围。

LibreChat

LibreChat 是一个开源的、增强版的 ChatGPT 克隆平台，集成了多种先进的人工智能技术。它提供了与 ChatGPT 类似的用户界面，并且支持多种 AI 模型，包括 OpenAI、GPT-4 Vision、Bing、Anthropic、OpenRouter 和 Google Gemini 等。

ChatGPT-Next-Web

ChatGPT-Next-Web 是一个基于 GPT 模型的网页应用，允许用户通过网页与模型进行交互，输入问题并获得回答。

Open WebUI

Open WebUI 是一个全功能、自托管的 WebUI 框架，旨在为本地大模型提供用户友好的界面。它支持完全离线操作，并且支持多种大型语言模型（LLM）运行环境，包括 Ollama 和兼容 OpenAI 的 API 。

StableSwarmUI

StableSwarmUI是一个模块化且可定制的Web用户界面，专为Stable Diffusion设计。它不仅提供了一个直观的操作界面，还通过一系列有用的特性，使得所有经验水平的用户都能轻松访问Stable Diffusion的强大功能。

ComflowySpace

ComflowySpace是一个开源的AI图像和视频生成工具，旨在提供比标准SDWebUI和ComfyUI更好的、更互动的用户体验。它基于ComfyUI和Stable Diffusion，通过简化和增强AI图像及视频生成工具的使用体验，使得用户界面更加用户友好和高效。

Tiledesk Design Studio

Tiledesk Design Studio 是 Tiledesk 提供的一个开源、无代码开发平台，用于创建聊天机器人和对话应用。该平台提供了一个用户友好的拖放界面，预设了动作和集成，结合了 LLM/GPT AI 的强大功能和灵活的“图形”方法，以轻松创建对话和自动化。

Stable Diffusion WebUI Forge

Stable Diffusion WebUI Forge是一个基于Stable Diffusion WebUI（基于Gradio）的绘画平台

Gradio

Gradio是一个开源的Python库，主要用于创建机器学习模型的交互式界面。它允许用户快速地为模型构建一个可视化的、易于使用的Web界面，无需编写任何Web前端代码。

ChatGPT Web Midjourney Proxy

chatgpt-web-midjourney-proxy 项目是在 ChenZhaoYu的基础上进行二次开发的，使用 midjourney-proxy 提供的 midjourney api 作为后端。部署后，可以在基于该开源项目体验 ChatGPT、Midjourney 的功能。

ComfyUI

ComfyUI是一个开源的基于图形界面Workflow可视化引擎，提供一个用户友好的图形界面。可以将多个Stable Diffusion模型及其Hypernetwork组合成一个完整的工作流(Workflow)，实现自动化的图像生成和优化。

LocalAI

LocalAI介绍LocalAI是免费、开源的OpenAI替代品。LocalAI充当一个与Open[…]

Langchain-Chatchat

Langchain-Chatchat（原Langchain-ChatGLM）基于 Langchain 与 ChatGLM 等语言模型的本地知识库问答。该项目是一个可以实现完全本地化推理的知识库问答增强方案，重点解决企业知识库数据安全、私域化部署的痛点。

FastGPT

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！

Dify

Dify介绍Dify.AI是一款开源且易用的LLMOps平台，可以帮助开发者更简单、更快速地构建AI[…]

LobeChat

LobeChat 是一个开源的、可扩展的高性能聊天机器人框架。它支持一键免费部署私人 ChatGPT/LLM 网页应用程序。经过精心设计的界面，具有优雅的外观和流畅的交互效果，支持亮暗色主题，适配移动端。支持 PWA，提供更加接近原生应用的体验，会话支持插件扩展，用户可以安装和使用各种插件，例如搜索引擎、网页提取等，同时也支持自定义插件的开发，满足自定义需求。

多模态模型

MemFree

MemFree是一款开源的混合AI搜索引擎，通过整合多种AI模型和搜索引擎，提供高效、多样化的搜索体验。

Ovis

多模态大模型Ovis是由阿里国际AI团队开发的一款先进的多模态人工智能模型。该模型在多个领域展现出色的表现，包括数学推理问答、物体识别、文本提取和复杂任务决策等

NVIDIA NeMo

什么是NVIDIANeMoNVIDIANeMo是一个由NVIDIA提供的端到端云原生框架，用于构建[…]

Mini-Omni

Mini-Omni 是由清华大学启元实验室开发并开源的多模态大型语言模型，具有实时端到端语音输入和流式音频输出对话功能。

xGen-MM

xGen-MM是Salesforce推出的一款开源多模态AI模型，该模型具有处理交错数据的能力，能够同时理解和生成文本、图像等多种数据类型，

浦语灵笔IXC-2.5

浦语灵笔IXC-2.5是由上海人工智能实验室联合多所知名大学和企业共同研发的新一代视觉语言模型。它不仅拥有7B规模的大型语言模型（LLM）后端，更以其对长上下文的理解和生成能力，达到了与GPT-4V相媲美的水平。

Idefics2

Idefics2是一个开放的多模态模型，它能够接受任意序列的图像和文本输入，并产生文本输出。无论是回答有关图像的问题、描述视觉内容、基于多张图像创造故事，还是作为纯语言模型在没有视觉输入的情况下运行，Idefics2都能游刃有余。

InternVL

InternVL简介InternVL是一个具有6亿参数的视觉变换器（ViT），它与大型语言模型（LLM）相结[…]

DiT

DiT（Diffusion Transformer）是一种基于Transformer的扩散模型技术，这种技术被用于构建Sora这样的技术产品。

数据集

more+

HD-VILA-100M数据集

HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集，由微软亚洲研究院的研究人员开发。

Emilia数据集

Emilia数据集是一个大规模、多语言和多样化的语音生成数据集，旨在支持大规模语音生成研究。

CelebA-HQ数据集

CelebA-HQ数据集是CelebA数据集的高质量版本，由30,000张分辨率为1024x1024的人脸图像组成.

CelebA数据集

CelebA数据集，全称为CelebFaces Attributes Dataset，是由中国香港中文大学多媒体实验室发布的一个大规模人脸属性数据集。

GarDiff

GarDiff是一种创新的虚拟试穿技术，旨在通过生成高保真且细节丰富的试穿图像来提升在线试穿体验。

DressCode数据集

DressCode数据集是一个用于图像基础虚拟试衣的高分辨率多类别数据集。

CelebV-Text数据集

CelebV-Text数据集是一个大规模、高质量、多样化的人脸文本-视频数据集，旨在促进人脸文本到视频生成任务的研究。该数据集包含70,000个野外面部视频剪辑，每个视频剪辑都配有20个文本描述。

SA-1B数据集

SA-1B 数据集，全称为Segment Anything 1 Billion，是一个大规模的图像分割数据集，旨在为通用对象分割模型提供训练数据。

DreamBooth数据集

DreamBooth数据集是一个用于训练扩散模型以识别和生成特定个体图像的数据集。

Fashion-MNIST数据集

Fashion-MNIST数据集是由德国Zalando公司提供的一种服饰物品图像数据集，旨在替代经典的MNIS[…]

DragBench数据集

DragBench数据集是一个用于评估交互式点基图像编辑方法性能的基准数据集。

3D-FRONT数据集

什么是3D-FRONT数据集3D-FRONT数据集是一个大规模且综合性的合成室内场景数据集，旨在提供高质量的[…]

LAION-5B

LAION-5B是一个大规模的多模态数据集，用于研究目的，包含约58.5亿个图像-文本对。这些数据对是通过CLIP模型过滤的，其中23亿对包含英语文本，22亿对来自超过100种其他语言，其余12.7亿对则包含无法明确归类于某一语言的文本。

WebVid10M数据集

WebVid10M数据集是一个大型的文本-视频配对数据集，包含大约1000万个视频及其对应的文本描述。该数据集[…]

Objaverse-XL

Objaverse-XL

Objaverse数据集

Objaverse数据集是一个包含超过80万个注释3D物体的庞大数据集，每个3D模型都附有描述性标题、标签和动画。

OpenXD-RenFace数据集

OpenXD-RenFace是唯一的大规模全头且包含丰富细粒度发型的人头数据集，同时包含音素均衡的话术视频。

THuman数据集

THHuman数据集是一个用于3D人体重建的研究数据集，它利用了DoubleFusion技术收集了230个人物的序列，并从中挑选了7000个数据。

DarkFace数据集

DarkFace数据集（DARK FACE dataset）是一个专门用于低光照条件下的面部检测的数据集。该数据集包含6000张真实世界中的低光照图像，这些图像在夜间拍摄于教学楼、街道、桥梁、立交桥和公园等地点，并且所有图像都标注了人脸的边界框，作为主要的训练和/或验证集。此外，还提供了9000张未标注的低光照图像，以及一个独特的789对低光照图像配对集。

DPED数据集

DPED数据集（Deep Photo Enhancement Dataset）是一个大型的图像数据集，主要用于深度学习模型的训练和验证。该数据集包含从不同设备拍摄的真实照片，包括三部不同的手机和一台高端反光相机。

SICE数据集

SICE数据集（Single Image Contrast Enhancement）是一个专门用于单张图像对比度增强的数据集。该数据集包含多个部分，其中Part1和Part2是主要的部分，Lowlight_img文件夹内为低照度图像，Lowlight_img_label文件夹内为对应的正常光图像。

ExDark数据集

什么是ExDark数据集ExDark数据集是一个专为促进弱光环境下的物体检测和图像增强研究而设计的数据集。该[…]

HQ-Edit数据集

HQ-Edit 是由加州大学圣克鲁斯分校的研究团队创建的一个高质量、基于指令的图像编辑数据集。

Handfit-3K数据集

Handfit-3K数据集是一个专门用于虚拟试穿（Virtual Try-on）的公开数据集，主要用于任意手部姿势遮挡情况下的手部遮挡场景。该数据集由VTON-HandFit项目团队自行收集，并在多个评估中表现出色。

深度学习框架

Diff3DEdit

Diff3DEdit是一种基于深度学习的3D编辑方法。它通过迭代三个阶段来实现对3D对象的编辑：视图合成阶段、去畸变阶段和修复阶段。

视觉模型

more+

Stable Diffusion 3.5

Stable Diffusion 3.5是Stability AI最新发布的AI图像生成模型，相较于前代产品SD3，它在图像生成的逼真度、提示响应和文本渲染方面都有显著提升。

Flash-VStream

Flash-VStream是一种基于记忆机制的视频-语言模型，旨在实时处理和理解长视频流，并能够同时响应用户查询。

Stable Diffusion XL（SDXL）

Stable Diffusion XL（SDXL）是Stability AI公司推出的一款最新图像生成模型，旨在提供更高质量和更逼真的图像输出。

VideoLLaMA2

VideoLLaMA2是由阿里巴巴集团达摩院团队开发的新一代视频理解模型。它在空间-时间建模和音频理解方面取得了显著进步，为用户提供了更为精准和全面的视频内容分析能力。

MVGFormer

MVGFormer：用于3D人体姿态估计的多视角几何Transformers

Open Glass

Open Glass AI是一个开源项目，旨在将任何普通眼镜改装成具有人工智能功能的智能眼镜。

SignLLM

SignLLM项目由全球多所顶尖大学联合发起，旨在创建首个全面性的多语种手语数据集Prompt2Sign，并基于此数据集开发了首个多语种手语生成(SLP)模型。

PaliGemma

PaliGemma是谷歌推出的一款开源视觉语言模型，该模型结合了图像处理和语言理解的能力，旨在支持多种视觉语言任务，如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。

VideoGigaGAN

VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率（VSR）模型

DINOv2

DINOv2是一种由Meta AI开发的自监督视觉变换器模型，旨在通过自我监督学习方法训练高性能的计算机视觉模型。

OpenPose

OpenPose是一个开源的人体姿态识别工具，它基于卷积神经网络和监督学习开发，使用Caffe作为其框架。OpenPose能够实时地检测图像中的人体关键点，包括面部表情、躯干、四肢以及手指的跟踪，适用于单人或多人场景。它能够检测多达135个关键点，包括身体、手势和人脸的关键点。

PhotoMaker

PhotoMaker是一款由腾讯实验室出品的AI图像生成工具，它主要利用了堆叠ID嵌入的技术来生成定制化的逼真人体照片。这项技术能够将用户的输入图像编码成堆叠ID嵌入，从而保留ID信息并容纳不同ID的特征，实现个性化的图像生成。

InsightFace

InsightFace 是一个开源的 2D&3D 深度人脸分析库，通过深度卷积神经网络和大规模数据集进行训练，它提供了高性能和准确性的人脸识别模型。

Stable Cascade

Stable Cascade作为一款新型的文本到图像转换模型，凭借其创新的三阶段架构，标志着人工智能领域的一个重要里程碑。基于Würstchen架构，此模型不仅在质量、灵活性、细化调整和效率方面树立了新的标准，而且特别注重打破硬件限制，使更多的研究人员和消费者能够轻松接触和训练高级AI模型。

Upscayl

Upscayl是一款开源免费的AI图片无损放大工具。它采用先进的人工智能模型，能够将低分辨率的图像进行质量提升，通过应用先进的算法和深度学习技术能够以更高的精度和细节还原能力，将模糊的图像转化为超清晰的图像。

Vary-toy

Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建，旨在提高图像感知能力。

Lumiere

适用于视频合成、图像到视频、视频修补、风格化生成等内容创作和视频编辑应用

ActAnywhere

ActAnywhere是一个用于自动生成与前景主体运动和外观相符的视频背景的生成模型。该任务涉及合成与前景主体运动和外观相一致的背景,同时也符合艺术家的创作意图。ActAnywhere利用大规模视频扩散模型的力量，并专门定制用于此任务。ActAnywhere以一系列前景主体分割作为输入，以描述所需场景的图像作为条件，生成与条件帧相一致的连贯视频，同时实现现实的前景和背景交互。

Stable Diffusion

Stable Diffusion是stability.ai开源的图像生成模型。Stable Diffusion能够从文本描述中生成详细的图像，它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。

VideoCrafter2

强大的视频处理工具

PIXART-α

一种基于Transformer的文本到图像生成模型

Anim400K

针对视频自动配音设计的数据集

MotionShop

将视频中的角色替换为3D化身

ChatPaper

一款强大的论文总结工具

语言模型

more+

Stable Diffusion 3.5

Stable Diffusion 3.5是Stability AI最新发布的AI图像生成模型，相较于前代产品SD3，它在图像生成的逼真度、提示响应和文本渲染方面都有显著提升。

LightRAG

LightRAG是由中国香港大学研究团队推出的一种检索增强生成（Retrieval-Augmented Generation, RAG）系统，旨在提升大型语言模型（LLM）的准确性和上下文相关性。该系统通过图结构集成和双层知识检索，优化了信息检索的全面性和效率。

Spoken2Sign

Spoken2Sign是一种将口语语言翻译成手语语言的功能系统。

MemFree

MemFree是一款开源的混合AI搜索引擎，通过整合多种AI模型和搜索引擎，提供高效、多样化的搜索体验。

Flash-VStream

Flash-VStream是一种基于记忆机制的视频-语言模型，旨在实时处理和理解长视频流，并能够同时响应用户查询。

Mistral Large 2

Mistral Large 2是法国人工智能初创公司Mistral AI最新发布的大型语言模型，具有1230亿参数和128K的上下文窗口。该模型在代码生成、数学和推理方面表现出色，并且支持多种编程语言和多语言处理能力。

Mem0

Mem0是一个为大型语言模型（LLM）设计的智能记忆层，它通过保留用户、会话和AI代理的信息，确保了交互的连续性和上下文。这种多层次的记忆机制不仅提高了用户体验，还使得AI能够更加智能地响应用户需求。

Samba

Samba是一个开源的语言模型项目，其全称为“Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling”。它通过一种创新的混合架构，实现了对无限长度上下文的有效建模。

X-LLM

X-LLM是中国科学院自动化研究所和中国科学院大学联合推出一种先进的大型语言模型，通过引入多模态数据和自监督学习来提升其理解和生成自然语言的能力。

FinGPT

FinGPT是一个开源的金融领域大型语言模型，旨在提供一个适用于金融数据的训练和微调平台。它通过最新的调整方法如LoRA增强模型的适应性和准确性，支持多任务处理，如情感分析和市场数据分析。

RAGFlow

RAGFlow是一个基于深度文档理解的开源RAG引擎。它通过集成大型语言模型(LLMs)，实现了对复杂格式数据的深度理解和智能问答。

AnythingLLM

AnythingLLM 是一个全栈应用程序，您可以使用现成的商业大语言模型或流行的开源大语言模型，再结合向量数据库解决方案构建一个私有 ChatGPT

PaliGemma

MedicalGPT

MedicalGPT 是一个基于ChatGPT训练流程的医疗行业语言模型项目，主要包括增量预训练、有监督微调和强化学习。项目旨在通过不同的训练阶段，优化模型以更好地适应医疗数据，提高问答和文本生成的准确性和质量。

Perplexica

Perplexica是一个开源的AI驱动搜索引擎，它不仅能够深入互联网寻找答案，而且能够理解用户的查询。

Llama 3

Llama 3 是 Meta 发布的最新大型语言模型，旨在让个人、创作者、研究人员和各种规模的企业能够负责任地试验、创新和扩展他们的想法。

FreeAskInternet

FreeAskInternet 是一款集免费、本地、隐私、强大搜索和智能问答于一身的AI实用工具。

PrivateGPT

PrivateGPT简介PrivateGPT是一个已完成的AI项目，允许用户在没有互联网连接的情况下，使用大[…]

Grok-1

Grok-1 是由马斯克旗下的人工智能初创公司 xAI 开发的一款大型语言模型，是一个混合专家（MoE）模型，拥有 3140 亿参数，使其成为目前参数量最大的开源大语言模型。

Gemma

Gemma是由Google DeepMind和Google其他团队合作开发的一系列轻量级且先进的开放模型。这些模型采用了与创建Gemini模型相同的研究和技术，旨在支持开发者和研究人员负责任地构建AI。

LLaMA-Factory

LLaMA-Factory是一个易于使用的大型语言模型（LLM）微调框架。它支持多种开源的大型语言模型，如 LLaMA、ChatGLM、Falcon 等。

XAgent

XAgent是一个开源的基于大型语言模型（LLM）的自主智能体，可以自动解决各种任务。它被设计为一个通用的智能体，可以应用于各种任务。作为一个开源实验性大型语言模型（LLM）驱动的自主代理，其核心是利用先进的自然语言处理和机器学习技术，使其能够理解和生成人类语言，从而自动解决各种任务。

OLMo

OLMo是一个开源的语言模型和训练框架,由AI2研究院发布。它提供了完整的训练数据、代码、模型参数、评估代码等资源,使研究人员能够训练并实验大规模语言模型。

Stable Code 3B

一个拥有27亿参数的仅解码器语言模型

语音模型

Moonshine

Moonshine是一款由Useful Sensors推出的开源语音识别模型，旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。

FireRedTTS

FireRedTTS是一个由小红书技术团队FireRed开发的开源文本转语音（TTS）系统，基于大语言模型（LLM）构建。该系统旨在为用户提供高质量的语音合成服务，并具有丰富的标点符号处理能力。

ImagetoMusicV2

ImagetoMusicV2是一个图片生成音乐的在线AI工具，利用先进的机器学习算法和神经网络模型，通过对图像的特征进行分析和提取，自动生成相应的音乐，生成音频文件。

OpenVINO

英特尔为开源音频编辑程序 Audacity 发布了一个名为 OpenVINO AI 的 AI 工具套件。这些插件允许 Audacity 用户在本地转录播客并根据提示生成音乐。

XAgent

Amphion

Amphion介绍Amphion是一个用于音频、音乐和语音生成的开源工具包，不论是搞语音识别应用，还是音频编[…]

WhisperSpeech

开源的文本到语音系统

Anim400K

针对视频自动配音设计的数据集