UCLA 与 Meta AI 联合推出 d1 框架

AI资讯 5小时前 硕雀
2 0

UCLAMeta AI联合推出了一种名为d1的框架,旨在大幅提升扩散大语言模型(dLLM)的推理速度和能力。这一框架结合了监督微调SFT)和强化学习(RL),特别是引入了一种新颖的策略梯度方法——diffu-GRPO,从而显著优化了模型在数学、逻辑推理等任务中的表现。

d1框架的核心特点:

  1. 两阶段后训练机制
    d1框架采用两阶段后训练方法,首先通过高质量推理轨迹对模型进行监督微调,然后利用强化学习进一步优化模型性能。这种方法不仅提升了推理准确性,还减少了在线训练所需的计算量。
  2. 创新的策略梯度方法diffu-GRPO
    d1框架引入了diffu-GRPO方法,这是一种基于高效一步对数概率估计的策略梯度技术。该方法克服了传统强化学习算法(如PPO、GRPO)在自回归模型中的局限性,解决了因序列生成而难以直接应用的问题。diffu-GRPO通过随机提示词掩码策略,实现了梯度更新的扩展性,并显著降低了计算时间。
  3. 数学和逻辑推理能力的提升
    实验表明,d1框架在数学和逻辑推理任务中表现优异,相较于仅使用监督微调(SFT)或diffu-GRPO训练的模型,d1-LLaDense8B-Instruct在多个测试中均取得了更高的准确率。这表明d1框架不仅增强了模型的推理能力,还展示了其良好的协同效应。
  4. 适应性和灵活性
    d1框架的设计理念在于打破传统自回归大语言模型的局限性,使其能够动态调整策略,适应更复杂的任务和推理场景。实验结果显示,d1框架在推理任务中的准确率提高了约20%,并且在真实场景中的应用效果也得到了验证。
  5. 开源与未来研究方向
    d1框架已开源,为研究人员提供了新的工具和研究方向。其开源性质不仅促进了学术界的合作,也为未来进一步改进和扩展LLM推理能力奠定了基础。

d1框架的意义与影响:

d1框架的推出标志着扩散大语言模型在推理任务中的一个重大突破。它不仅提高了推理速度和准确性,还为解决传统自回归模型在非自回归场景下的局限性提供了新的思路。此外,该框架的成功应用表明,结合监督微调与强化学习的方法可以显著增强模型的灵活性和适应性,为未来更复杂的语言模型研究提供了重要的参考。

d1框架通过创新的技术手段和方法论,大幅提升了AI推理速度和能力,为推动语言模型的发展开辟了新的道路。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!