Anim400K:一个针对视频自动配音设计的数据集,包含超过425,000个对齐的音视频剪辑,总时长达763小时。这些剪辑来自超过190个作品,涵盖了数百种主题和类型,并包含英语和日语两种语言的内容。利用这个数据集,开发者可以训练和改进自动配音系统,同时支持多种视频相关任务,如同步翻译、引导式视频概括和类型/主题/风格分类。
项目地址:https://github.com/davidmchan/Anim400K
此外,数据集附带了丰富的元数据,包括类型、主题、节目评级、角色档案、动画风格等在内的属性级别元数据。每个剧集还有剧集概要、评分和字幕等剧集级别信息。对齐剪辑级别提供了预先计算的自动语音识别(ASR)数据,以支持深入的音视频任务研究。
这个数据集的应用场景非常广泛。首先,研究者和开发者可以利用它来训练和改进自动配音系统,实现视频中对话的自动翻译和配音,并保持口型和声音与视频中的行为同步。其次,数据集支持多模态学习,即同时处理和分析音频和视觉信息,对于改进机器学习模型在处理复杂音视频数据时非常重要。
此外,数据集中包含的自动语音识别(ASR)和视觉内容可以用于训练和测试语音识别和图像识别系统。最后,数据集中的丰富内容和元数据也可以用于媒体内容分析,如情感分析、内容推荐、自动生成视频剪辑等,以及在语言学和文化研究领域的应用,特别是在跨文化传播和翻译领域。