S1K数据集概述
数据集定义及来源
S1K数据集是由李飞飞团队构建的一个包含1000个问题及其推理轨迹的小型数据集。这些问题的来源多样,包括现有的数学问题数据集、概率问题集以及脑筋急转弯问题集。通过从16个不同的来源收集并筛选,最终创建了这个高质量、多样化和高难度的问题集合。
S1K数据集相关链接:#
构建背景
- 收集原则:研究团队遵循质量、难度和多样性三个原则进行数据收集。
- 数据类型:包括数学问题、概率问题和脑筋急转弯问题。
- 筛选过程:通过样本检查、筛选掉格式不佳的数据集,并选择推理链路长的问题,最终创建了包含50个不同领域的1000个问题。
数据集特点和应用
特点
- 高质量:每个问题都配有从GeminiThinkingExperimental提炼出的推理过程和答案。
- 高难度和多样性:数据集覆盖了50个不同的领域,确保了问题的广泛性和复杂性。
应用场景
- 模型训练:特别适用于Qwen2.5-32B-Instruct语言模型的监督微调,展示了高质量数据集在模型训练中的重要性。
- 技术创新:在S1模型的训练中开发了预算强制技术,通过控制模型在测试时所花费的计算量,影响模型的推理深度和最终答案。
技术细节
预算强制技术
- 技术原理:通过限制模型在测试时使用的最大思考token数量来控制计算量。
- 实施效果:能够使模型重新检查其答案,修正错误的推理步骤,提高推理性能。
数据集规模与效率
- 数据集规模:尽管仅包含1000个问题,但这种方法远低于行业通常的大模型训练数据量。
- 效率提升:李飞飞团队证明了高质量、高难度和多样性数据所带来的强大张力,以及在测试时扩展方法的效率。
行业影响
开源大模型的发展
- 模型性能对比:s1-32B模型在AIME24基准测试上的表现几乎与Gemini2.0ThinkingAPI持平,表明其蒸馏过程是有效的。
- 开源生态影响:随着大模型烧钱的降温,如何用更低的成本训练高性能模型成为业内关注重心之一,s1K数据集的应用促进了这一趋势的发展。
综上所述,S1K数据集不仅在学术研究中发挥了重要作用,也在推动开源大模型的发展和降低成本方面展现了其独特的价值。