Multimodal C4 的数据集是一个开放的、10亿规模的、与文本交错的图像语料库,其中包含了 585M 张图片和 43B 个英文单词,这些图片和文字相互交织。通过该数据集进行训练,可以更好地实现多模态的上下文学习,这对于未来更加丰富的多模态语言技术的发展非常重要。此外,还对数据集进行了详细的分析和筛选,确保了其中的图片和文字具有高度相关性。
-
动机:为了更好地实现多模态的上下文学习,需要一个包含图片和文字交织的数据集。 -
方法:使用了一个线性分配算法,将图片插入到长篇的文字中,使用了 CLIP 特征来进行优化。 -
优势:使用 Multimodal C4 数据集进行训练,可以更好地实现多模态的上下文学习,这对于未来更加丰富的多模态语言技术的发展非常重要。
像Flamingo这样的上下文视觉和语言模型支持任意交错的图像和文本序列作为输入。这种格式不仅可以通过交错独立的监督(图像、文本)实例来实现少量的学习,而且还可以实现涉及图像之间互动的更复杂的提示,例如:"图像A和图像B有什么共同点?" 为了支持这个界面,预训练发生在类似于包含交错图像+文本的网络语料库上。
然而,到目前为止,这种形式的大规模数据还没有公开提供。我们发布了多模态C4(mmc4),它是对流行的纯文本c4语料库的扩充,其中包含了图像交错。我们使用一种线性赋值算法,利用CLIP的特征将图片放入较长的文本中,我们发现这个过程优于其他方法。
mmc4涵盖了日常话题,如烹饪、旅行、技术等。对随机抽样的文件进行的人工检查显示,绝大多数(90%)的图像都是主题相关的,而且线性赋值经常选择与每张图像特别吻合的个别句子(78%)。在过滤了NSFW图像、广告等之后,语料库包含了1.03亿份文件,其中包含了5.85亿张图像和43B个英语标记交错排列。
Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text
Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, Yejin Choi
https://twitter.com/ZhuWanrong/status/1648021932410048512