HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集,由微软亚洲研究院的研究人员开发。该数据集包含330万段高质量视频,总时长达到37.15万小时,分辨率为720p。这些视频覆盖了YouTube上的15个流行视频类别,如体育、音乐和汽车等。
HD-VILA-100M数据集的主要特点包括:
- 大规模:数据集中包含1亿个视频片段和句子对,每个视频片段平均时长为13.4秒,句子平均长度为32.5个单词。
- 高分辨率:所有视频的分辨率均为720p,远高于主流的240p和360p。
- 多样化:数据集涵盖了多种类型的视频,包括专业电视频道制作的纪录片和普通用户上传的日常博客等。
- 预训练模型:为了更好地利用视频中的丰富信息,研究团队开发了HD-VILA预训练模型,该模型使用混合图像序列作为混合Transformer来学习时空信息,并在多个视频-语言理解和文本到视觉生成任务中表现出色。
此外,HD-VILA-100M数据集还被用于构建其他相关数据集,例如Panda-70M,后者通过从HD-VILA-100M中筛选出380万个高分辨率视频,并利用多种跨模态教师模型生成高质量字幕。HD-VILA-100M数据集在多模态表示学习、视频理解、问答(VQA)和检索等任务中具有重要的应用价值。
关于HD-VILA-100M数据集的相关链接地址,可以通过以下链接下载数据集:https://github.com/microsoft/XPretrain/tree/main/hd-vila-100m