Vimeo25M是一个全面且多样化的视频数据集,包含2500万个文本-视频对
Vimeo25M是一个全面且多样化的视频数据集,包含2500万个文本-视频对。Vimeo25M数据集由上海人工智能实验室开源,这个数据集的目的是为了提高LaVie模型的性能,并且已经被广泛应用于LaVie模型的训练中,以实现高质量的文本到视频(T2V)生成。确保模型能够处理各种事件和内容类型。Vimeo25M特别重视质量、多样性和美学吸引力,这些特点使其在视频生成任务中表现出色。
该数据集不仅支持长篇视频生成,还适用于个性化视频合成等多种应用场景
TMDB 5000 Movie Dataset 是一个由 Kaggle 平台上的项目 TMDB (The Movie Database) 提供的数据集,包含约4803部电影的信息。
Mini-Omni 是由清华大学启元实验室开发并开源的多模态大型语言模型,具有实时端到端语音输入和流式音频输出对话功能。
VOC数据集是目标检测经常用的一个数据集,常见的VOC数据集有VOC2007以及VOC2012。
LabelU是一款开源的多模态数据标注工具,专为处理图像、视频和音频数据而设计。它提供了丰富的标注功能,适用于机器学习和人工智能领域的数据预处理。
LEVIR数据集由大量 800 × 600 像素和0.2m〜1.0m /像素的高分辨率Google Earth图像和超过22k的图像组成。LEVIR数据集涵盖了人类居住环境的大多数类型地面特征,例如城市,乡村,山区和海洋。
ImagetoMusicV2是一个图片生成音乐的在线AI工具,利用先进的机器学习算法和神经网络模型,通过对图像的特征进行分析和提取,自动生成相应的音乐,生成音频文件。