AI开源项目 AI开源项目 AI数据集 数据集
LAION-5B

LAION-5B是一个大规模的多模态数据集,用于研究目的,包含约58.5亿个图像-文本对。这些数据对是通过CLIP模型过滤的,其中23亿对包含英语文本,22亿对来自超过100种其他语言,其余12……

标签:
广告也精彩
广告也精彩

LAION-5B是一个大规模的图文数据集,用于研究目的,包含约58.5亿个图像-文本对。这些数据对是通过CLIP模型过滤的,其中23亿对包含英语文本,22亿对来自超过100种其他语言,其余12.7亿对则包含无法明确归类于某一语言的文本。

LAION-5B的数据集总大小约为80TB,是目前世界上最大的公开多模态图文数据集之一。该数据集的创建方式类似于LAION-400M,首先从Common Crawl中提取带有字幕的图像URL,然后下载原始图像,并使用CLIP模型测试图像和文本之间的相似性,删除相似度较低的图像对。

LAION-5B不仅提供了大量的数据,还提供了改进的Web界面用于探索和子集创建,以及一些最近邻索引,帮助研究人员更好地利用这些数据。此外,该数据集也存在一些问题,例如包含潜在的版权内容和不当内容,这在使用过程中需要特别注意。

LAION-5B为研究人员提供了一个庞大的资源库,可以用于训练和测试各种图像生成和多模态模型,但同时也需要谨慎处理其中可能存在的版权和内容问题。

LAION-5B相关链接:

来源:www.aiug.cn

相关导航