广告也精彩

万卷·丝路多语言预训练语料库是由上海人工智能实验室联合大模型语料数据联盟成员共同发布的一个高质量多语言预训练语料库。该语料库旨在为多语言大模型的训练提供高质量的数据支撑,以推动人工智能技术的发展。

根据证据,“万卷·丝路”语料库通过专家人工标注,确立了七个维度的文本数据质量评估体系,包括完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等方面,确保数据的高标准与高质量。此外,该语料库首期开源了包含泰、俄、阿、韩、越五个语种的语料,总规模超过1.2TB,单语种均超过150GB,涵盖生活、百科、文化、新闻等七大领域。

为了保证数据的质量,“万卷·丝路”语料库采用了基于大语言模型的数据质量评估工具Dingo进行评估,并设计了一套精准化数据处理流程,以确保数据的适用性和安全性。研究团队还对语料库进行了全面评估,其五个子集均获得了优异的综合评分,显著优于同类语言语料库。

“万卷·丝路”多语言预训练语料库是一个高质量、多语言、多领域的数据集,通过严格的评估和处理流程,为多语言大模型训练提供了可靠的数据基础,助力人工智能技术的发展。

“万卷·丝路”多语言预训练语料库相关链接:

开源链接:https://opendatalab.com/applyMultilingualCorpus

来源:www.aiug.cn

相关导航