LAION-5B - 是一个大规模的图文数据集

AI开源项目 AI开源项目 AI数据集数据集

LAION-5B

LAION-5B是一个大规模的多模态数据集，用于研究目的，包含约58.5亿个图像-文本对。这些数据对是通过CLIP模型过滤的，其中23亿对包含英语文本，22亿对来自超过100种其他语言，其余12……

标签：LAION-5B 图文数据集

手机查看

LAION-5B是一个大规模的图文数据集，用于研究目的，包含约58.5亿个图像-文本对。这些数据对是通过CLIP模型过滤的，其中23亿对包含英语文本，22亿对来自超过100种其他语言，其余12.7亿对则包含无法明确归类于某一语言的文本。

LAION-5B的数据集总大小约为80TB，是目前世界上最大的公开多模态图文数据集之一。该数据集的创建方式类似于LAION-400M，首先从Common Crawl中提取带有字幕的图像URL，然后下载原始图像，并使用CLIP模型测试图像和文本之间的相似性，删除相似度较低的图像对。

LAION-5B不仅提供了大量的数据，还提供了改进的Web界面用于探索和子集创建，以及一些最近邻索引，帮助研究人员更好地利用这些数据。此外，该数据集也存在一些问题，例如包含潜在的版权内容和不当内容，这在使用过程中需要特别注意。

LAION-5B为研究人员提供了一个庞大的资源库，可以用于训练和测试各种图像生成和多模态模型，但同时也需要谨慎处理其中可能存在的版权和内容问题。

LAION-5B相关链接：

Handfit-3K数据集是一个专门用于虚拟试穿（Virtual Try-on）的公开数据集，主要用于任意手部姿势遮挡情况下的手部遮挡场景。该数据集由VTON-HandFit项目团队自行收集，并在多个评估中表现出色。

AnythingLLM 是一个全栈应用程序，您可以使用现成的商业大语言模型或流行的开源大语言模型，再结合向量数据库解决方案构建一个私有 ChatGPT

Caltech-256是一个由加利福尼亚理工学院收集整理的图像物体识别数据集，包含30,607张不同大小的真实世界图像，跨越257个类别（256个对象类别和一个额外的杂波类别）。每个类别至少由80张图像表示，确保了对象识别任务中有足够的样本来进行训练。

ChatGPT-Web是一个基于OpenAI自然语言处理模型的开源项目，旨在提供一个简单易用且功能丰富的界面，让用户能够与先进的自然语言处理模型进行互动。

OpenAI.fm 是由 OpenAI 推出的一个互动演示平台，旨在为开发者提供一个调试和体验最新语音模型的场所。

RAGFlow是一个基于深度文档理解的开源RAG引擎。它通过集成大型语言模型(LLMs)，实现了对复杂格式数据的深度理解和智能问答。