MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个面向自然语言处理(NLP)研究的超大规模中文语料数据集,旨在为中文大模型训练提供多样化的高质量文本资源。