AI中文数据集

MNBVC（Massive Never-ending BT Vast Chinese corpus）是一个面向自然语言处理（NLP）研究的超大规模中文语料数据集，旨在为中文大模型训练提供多样化的高质量文本资源。