HD-VILA-100M数据集 - 是一个大规模、高分辨率和多样化的视频语言数据集

AI开源项目 AI开源项目 AI数据集数据集机器视觉处理自然语言处理语音识别处理

HD-VILA-100M数据集

HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集，由微软亚洲研究院的研究人员开发。

标签：HD-VILA-100M数据集视频语言数据集

链接直达手机查看

HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集，由微软亚洲研究院的研究人员开发。该数据集包含330万段高质量视频，总时长达到37.15万小时，分辨率为720p。这些视频覆盖了YouTube上的15个流行视频类别，如体育、音乐和汽车等。

HD-VILA-100M数据集的主要特点包括：

大规模：数据集中包含1亿个视频片段和句子对，每个视频片段平均时长为13.4秒，句子平均长度为32.5个单词。
高分辨率：所有视频的分辨率均为720p，远高于主流的240p和360p。
多样化：数据集涵盖了多种类型的视频，包括专业电视频道制作的纪录片和普通用户上传的日常博客等。
预训练模型：为了更好地利用视频中的丰富信息，研究团队开发了HD-VILA预训练模型，该模型使用混合图像序列作为混合Transformer来学习时空信息，并在多个视频-语言理解和文本到视觉生成任务中表现出色。

此外，HD-VILA-100M数据集还被用于构建其他相关数据集，例如Panda-70M，后者通过从HD-VILA-100M中筛选出380万个高分辨率视频，并利用多种跨模态教师模型生成高质量字幕。HD-VILA-100M数据集在多模态表示学习、视频理解、问答（VQA）和检索等任务中具有重要的应用价值。

关于HD-VILA-100M数据集的相关链接地址，可以通过以下链接下载数据集：https://github.com/microsoft/XPretrain/tree/main/hd-vila-100m