上海人工智能实验室与大模型语料数据联盟成员共同发布了名为“万卷·丝路”的多语言预训练语料库。该语料库旨在为多语言大模型训练提供高质量的数据支持,推动人工智能技术的发展,并助力“一带一路”建设。
“万卷·丝路”语料库首期开源了包含泰、俄、阿、韩、越五个语种的多语言数据,总规模超过1.2TB,单语种数据量均超过150GB。这些数据覆盖了生活、文化、百科、新闻等七大领域的信息,Token总数超过300亿,处于国际领先水平。
为了确保数据的高质量和安全性,“万卷·丝路”语料库采用了精准化数据处理流程。具体措施包括标准化处理、高效去重、安全性处理(如建立域名黑名单筛除不良网页数据)以及敏感词表的构建等。这些措施不仅提升了数据质量,还兼顾了数据的安全性。
该语料库的发布标志着中国在多语言语料库建设方面迈出了重要一步,填补了多语言语料库发展不平衡的空白,为人工智能领域的研究和应用提供了坚实的基础。
多语言预训练语料库开源链接:https://opendatalab.com/applyMultilingualCorpus
声明:文章来源于网络,如有侵权请联系删除!