Anim400K | AIUG

AI开源项目 AI开源项目视觉模型语音模型

Anim400K

针对视频自动配音设计的数据集

链接直达手机查看

Anim400K:一个针对视频自动配音设计的数据集，包含超过425，000个对齐的音视频剪辑，总时长达763小时。这些剪辑来自超过190个作品，涵盖了数百种主题和类型，并包含英语和日语两种语言的内容。利用这个数据集，开发者可以训练和改进自动配音系统，同时支持多种视频相关任务，如同步翻译、引导式视频概括和类型/主题/风格分类。

项目地址：https://github.com/davidmchan/Anim400K

此外，数据集附带了丰富的元数据，包括类型、主题、节目评级、角色档案、动画风格等在内的属性级别元数据。每个剧集还有剧集概要、评分和字幕等剧集级别信息。对齐剪辑级别提供了预先计算的自动语音识别（ASR）数据，以支持深入的音视频任务研究。

这个数据集的应用场景非常广泛。首先，研究者和开发者可以利用它来训练和改进自动配音系统，实现视频中对话的自动翻译和配音，并保持口型和声音与视频中的行为同步。其次，数据集支持多模态学习，即同时处理和分析音频和视觉信息，对于改进机器学习模型在处理复杂音视频数据时非常重要。

此外，数据集中包含的自动语音识别（ASR）和视觉内容可以用于训练和测试语音识别和图像识别系统。最后，数据集中的丰富内容和元数据也可以用于媒体内容分析，如情感分析、内容推荐、自动生成视频剪辑等，以及在语言学和文化研究领域的应用，特别是在跨文化传播和翻译领域。

相关导航

PaliGemma

PaliGemma是谷歌推出的一款开源视觉语言模型，该模型结合了图像处理和语言理解的能力，旨在支持多种视觉语言任务，如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。

DIS5K数据集

DIS5K是一个用于二分图像分割（DIS）任务的数据集，包含5,470张高分辨率图像。

MedicalGPT

MedicalGPT 是一个基于ChatGPT训练流程的医疗行业语言模型项目，主要包括增量预训练、有监督微调和强化学习。项目旨在通过不同的训练阶段，优化模型以更好地适应医疗数据，提高问答和文本生成的准确性和质量。

The Pile

The Pile是一个由EleutherAI提供的825 GiB大小的多样化、开源语言建模数据集，它由22个较小的、高质量的数据集组合而成。这些子集包括书籍、新闻、维基百科、GitHub代码、科学论文和对话记录等，每个子集都具有其独特性。

Spoken2Sign

Spoken2Sign是一种将口语语言翻译成手语语言的功能系统。

VideoGigaGAN

VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率（VSR）模型