MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个面向自然语言处理(NLP)研究的超大规模中文语料数据集,旨在为中文大模型训练提供多样化的高质量文本资源。以下是关于该数据集的详细介绍:
一、项目背景与目标
-
核心定位
MNBVC对标国际先进语言模型(如ChatGPT)的训练数据规模,目标构建40TB量级的中文语料库。截至2023年统计,其数据总量已超过42TB,完成目标进度的106.9%。 -
数据来源
数据全部来自互联网公开资源,覆盖主流文化与小众内容,包括新闻、小说、论文、社交媒体帖子、古诗、商品描述、聊天记录等,甚至包含火星文等非规范文本。 -
开源协作
由社区驱动,通过GitHub、GitCode等平台开放协作,吸引了OCR处理、问答对齐、古文研究等多个技术小组参与。
二、数据构成与特点
- 数据格式
- 主要格式:
txt
、json
、jsonl
、parquet
(多模态专用)。 - 元数据信息:每个子文件夹包含数据来源URL截图和链接文件(
links.txt
),便于追溯原始内容。
- 主要格式:
- 技术处理
- 脱敏:去除长度≥8位的数字串,降低隐私风险。
- 去重与增强:使用专用工具(如
deduplication_mnbvc
)进行数据清洗,并通过NLP技术补全缺失文本。 - 多模态扩展:整合OCR转码后的图文数据,支持更复杂的模型训练。
- 子集分类示例
- 法律文书(
law_judgement
)、政府报告(gov_report
)、知乎问答(qa_zhihu
)等垂直领域数据。 - 中文维基百科专项语料(
zhwiki-mnbvc
),含超1000万条结构化条目。
- 法律文书(
三、应用场景
-
大模型训练
直接支持从头预训练中文LLM(如类ChatGPT模型),尤其在长文本生成和领域适应任务中表现突出。 -
NLP任务开发
- 文本分类:基于新闻、情感等标注数据构建分类模型。
- 机器翻译:作为平行语料库提升中英互译质量。
- 信息检索:通过海量数据优化搜索引擎相关性。
-
学术研究
提供古籍转码、方言分析等细分方向的研究素材,支持语言学和社会学跨学科探索。
四、使用规范与注意事项
-
版权声明
数据集明确要求使用者避免公开讨论具体数据来源索引,以规避版权争议。 -
推荐工具链
- 数据预处理:项目组优化的编码检测工具和高效去重算法。
- 生态整合:支持Hugging Face Transformers等框架,便于微调现有模型。
五、与其他语料库对比
特性 | MNBVC | 其他主流语料(如WuDao、CLUE) |
---|---|---|
数据规模 | 40TB+(持续增长) | 通常≤2TB |
内容多样性 | 涵盖火星文、小众文化 | 聚焦主流文本 |
更新机制 | 实时爬虫补充(Never-ending) | 静态数据集 |
多模态支持 | 含图文关联数据 | 纯文本为主 |
社区协作模式 | 开源众包 | 机构主导 |
如需获取完整数据集或参与贡献,可访问其官方仓库([GitHub] [GitCode] )及文档站([MNBVC Wiki] )。