“万卷·丝路”多语言预训练语料库 - 是一个高质量多语言预训练语料库

AI开源项目 AI开源项目 AI数据集数据集自然语言处理

“万卷·丝路”多语言预训练语料库

标签：万卷·丝路万卷丝路多语言预训练语料库

手机查看

“万卷·丝路”多语言预训练语料库是由上海人工智能实验室联合大模型语料数据联盟成员共同发布的一个高质量多语言预训练语料库。该语料库旨在为多语言大模型的训练提供高质量的数据支撑，以推动人工智能技术的发展。

根据证据，“万卷·丝路”语料库通过专家人工标注，确立了七个维度的文本数据质量评估体系，包括完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等方面，确保数据的高标准与高质量。此外，该语料库首期开源了包含泰、俄、阿、韩、越五个语种的语料，总规模超过1.2TB，单语种均超过150GB，涵盖生活、百科、文化、新闻等七大领域。

为了保证数据的质量，“万卷·丝路”语料库采用了基于大语言模型的数据质量评估工具Dingo进行评估，并设计了一套精准化数据处理流程，以确保数据的适用性和安全性。研究团队还对语料库进行了全面评估，其五个子集均获得了优异的综合评分，显著优于同类语言语料库。

“万卷·丝路”多语言预训练语料库是一个高质量、多语言、多领域的数据集，通过严格的评估和处理流程，为多语言大模型训练提供了可靠的数据基础，助力人工智能技术的发展。

“万卷·丝路”多语言预训练语料库相关链接：

开源链接：https://opendatalab.com/applyMultilingualCorpus

相关导航

OpenDataLab

OpenDataLab是一个由上海人工智能实验室发布的开源数据平台，旨在为大型AI模型提供高质量的开放数据集支持。

Objaverse数据集

Objaverse数据集是一个包含超过80万个注释3D物体的庞大数据集，每个3D模型都附有描述性标题、标签和动画。

VideoLLaMA2

VideoLLaMA2是由阿里巴巴集团达摩院团队开发的新一代视频理解模型。它在空间-时间建模和音频理解方面取得了显著进步，为用户提供了更为精准和全面的视频内容分析能力。

SA-1B数据集

SA-1B 数据集，全称为Segment Anything 1 Billion，是一个大规模的图像分割数据集，旨在为通用对象分割模型提供训练数据。

HelpSteer2

HelpSteer2数据集是由NVIDIA发布的一个开源数据集，旨在训练能够与人类偏好对齐的先进奖励模型，以便将大型语言模型（LLMs）与人类偏好对齐。该数据集包含10,681个提示-响应对，这些对在五个属性上使用李克特量表进行了标注。

OpenVINO

英特尔为开源音频编辑程序 Audacity 发布了一个名为 OpenVINO AI 的 AI 工具套件。这些插件允许 Audacity 用户在本地转录播客并根据提示生成音乐。