AI数据集 AI中文数据集 AI开源项目 AI数据集 数据集
MNBVC数据集

MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个面向自然语言处理(NLP)研究的超大规模中文语料数据集,旨在为中文大模型训练提供多样化的高质量文本资源。

标签:
广告也精彩
广告也精彩

MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个面向自然语言处理(NLP)研究的超大规模中文语料数据集,旨在为中文大模型训练提供多样化的高质量文本资源。以下是关于该数据集的详细介绍:


一、项目背景与目标

  1. 核心定位
    MNBVC对标国际先进语言模型(如ChatGPT)的训练数据规模,目标构建40TB量级的中文语料库。截至2023年统计,其数据总量已超过42TB,完成目标进度的106.9%。

  2. 数据来源
    数据全部来自互联网公开资源,覆盖主流文化与小众内容,包括新闻、小说、论文、社交媒体帖子、古诗、商品描述、聊天记录等,甚至包含火星文等非规范文本。

  3. 开源协作
    由社区驱动,通过GitHub、GitCode等平台开放协作,吸引了OCR处理、问答对齐、古文研究等多个技术小组参与。


二、数据构成与特点

  1. 数据格式
    • 主要格式:txtjsonjsonlparquet(多模态专用)。
    • 元数据信息:每个子文件夹包含数据来源URL截图和链接文件(links.txt ),便于追溯原始内容。
  2. 技术处理
    • 脱敏:去除长度≥8位的数字串,降低隐私风险。
    • 去重与增强:使用专用工具(如deduplication_mnbvc)进行数据清洗,并通过NLP技术补全缺失文本。
    • 多模态扩展:整合OCR转码后的图文数据,支持更复杂的模型训练。
  3. 子集分类示例
    • 法律文书(law_judgement)、政府报告(gov_report)、知乎问答(qa_zhihu)等垂直领域数据。
    • 中文维基百科专项语料(zhwiki-mnbvc),含超1000万条结构化条目。

三、应用场景

  1. 大模型训练
    直接支持从头预训练中文LLM(如类ChatGPT模型),尤其在长文本生成和领域适应任务中表现突出。

  2. NLP任务开发

    • 文本分类:基于新闻、情感等标注数据构建分类模型。
    • 机器翻译:作为平行语料库提升中英互译质量。
    • 信息检索:通过海量数据优化搜索引擎相关性。
  3. 学术研究
    提供古籍转码、方言分析等细分方向的研究素材,支持语言学和社会学跨学科探索。


四、使用规范与注意事项

  1. 版权声明
    数据集明确要求使用者避免公开讨论具体数据来源索引,以规避版权争议。

  2. 推荐工具链

    • 数据预处理:项目组优化的编码检测工具和高效去重算法。
    • 生态整合:支持Hugging Face Transformers等框架,便于微调现有模型。

五、与其他语料库对比

特性 MNBVC 其他主流语料(如WuDao、CLUE)
数据规模 40TB+(持续增长) 通常≤2TB
内容多样性 涵盖火星文、小众文化 聚焦主流文本
更新机制 实时爬虫补充(Never-ending) 静态数据集
多模态支持 含图文关联数据 纯文本为主
社区协作模式 开源众包 机构主导

如需获取完整数据集或参与贡献,可访问其官方仓库([GitHub] [GitCode] )及文档站([MNBVC Wiki] )。

来源:www.aiug.cn

相关导航