LAION-5B

LAION-5B是一个大规模的多模态数据集，用于研究目的，包含约58.5亿个图像-文本对。这些数据对是通过CLIP模型过滤的，其中23亿对包含英语文本，22亿对来自超过100种其他语言，其余12.7亿对则包含无法明确归类于某一语言的文本。