MNBVC - 是一个面向自然语言处理（NLP）研究的超大规模中文语料数据集

AI数据集 AI中文数据集 AI开源项目 AI数据集数据集

MNBVC数据集

MNBVC（Massive Never-ending BT Vast Chinese corpus）是一个面向自然语言处理（NLP）研究的超大规模中文语料数据集，旨在为中文大模型训练提供多样化的高质量文本资源。

标签：MNBVC MNBVC中文数据集 MNBVC数据集中文语料数据集

链接直达手机查看

MNBVC（Massive Never-ending BT Vast Chinese corpus）是一个面向自然语言处理（NLP）研究的超大规模中文语料数据集，旨在为中文大模型训练提供多样化的高质量文本资源。以下是关于该数据集的详细介绍：

核心定位
MNBVC对标国际先进语言模型（如ChatGPT）的训练数据规模，目标构建40TB量级的中文语料库。截至2023年统计，其数据总量已超过42TB，完成目标进度的106.9%。
数据来源
数据全部来自互联网公开资源，覆盖主流文化与小众内容，包括新闻、小说、论文、社交媒体帖子、古诗、商品描述、聊天记录等，甚至包含火星文等非规范文本。
开源协作
由社区驱动，通过GitHub、GitCode等平台开放协作，吸引了OCR处理、问答对齐、古文研究等多个技术小组参与。

数据格式
- 主要格式：txt、json、jsonl、parquet（多模态专用）。
- 元数据信息：每个子文件夹包含数据来源URL截图和链接文件（links.txt ），便于追溯原始内容。
技术处理
- 脱敏：去除长度≥8位的数字串，降低隐私风险。
- 去重与增强：使用专用工具（如deduplication_mnbvc）进行数据清洗，并通过NLP技术补全缺失文本。
- 多模态扩展：整合OCR转码后的图文数据，支持更复杂的模型训练。
子集分类示例
- 法律文书（law_judgement）、政府报告（gov_report）、知乎问答（qa_zhihu）等垂直领域数据。
- 中文维基百科专项语料（zhwiki-mnbvc），含超1000万条结构化条目。

大模型训练
直接支持从头预训练中文LLM（如类ChatGPT模型），尤其在长文本生成和领域适应任务中表现突出。
NLP任务开发
- 文本分类：基于新闻、情感等标注数据构建分类模型。
- 机器翻译：作为平行语料库提升中英互译质量。
- 信息检索：通过海量数据优化搜索引擎相关性。
学术研究
提供古籍转码、方言分析等细分方向的研究素材，支持语言学和社会学跨学科探索。

版权声明
数据集明确要求使用者避免公开讨论具体数据来源索引，以规避版权争议。
推荐工具链
- 数据预处理：项目组优化的编码检测工具和高效去重算法。
- 生态整合：支持Hugging Face Transformers等框架，便于微调现有模型。