摘要:DeepSeek-R1的成功凸显了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的重要作用。在本研究中,我们提出了Skywork-OR1,这是一种针对长思维链(Chain-of-Thought,CoT)模型的有效且可扩展的强化学习实现方案。基于DeepSeek-R1-Distill模型系列,我们的强化学习方法取得了显著的性能提升,在AIME24、AIME25和LiveCodeBench数据集上,320亿参数(32B)模型的平均准确率从57.8%提高到了72.8%(提升了15.0%),而70亿参数(7B)模型的平均准确率则从43.6%提高到了57.5%(提升了13.9%)。我们的Skywork-OR1-32B模型在AIME24和AIME25基准测试上超越了DeepSeek-R1和Qwen3-32B,同时在LiveCodeBench上取得了相当的结果。Skywork-OR1-7B和Skywork-OR1-Math-7B模型在相似规模的模型中展现出了具有竞争力的推理能力。我们对训练流程中的核心组件进行了全面的消融研究,以验证其有效性。此外,我们还深入研究了熵崩溃现象,确定了影响熵动态的关键因素,并证明了缓解过早的熵崩溃对于提高测试性能至关重要。为了支持社区研究,我们完全开源了我们的模型权重、训练代码和训练数据集。Huggingface链接:Paper page,论文链接:2505.22312
研究背景和目的
研究背景
近年来,基于强化学习(Reinforcement Learning, RL)的后训练技术在提升大型语言模型(Large Language Models, LLMs)的推理能力方面取得了突破性进展。代表性模型如OpenAI-o1、DeepSeek-R1和Kimi-K1.5等,均展示了RL在数学和编程任务中显著提升模型性能的能力。尽管早期的RL方法主要依赖于蒙特卡洛树搜索(MCTS)或过程奖励模型(PRMs)来改进监督微调(SFT)后的模型,但DeepSeek-R1的成功明确表明,使用基于简单规则奖励的在线RL足以显著提升基础模型的推理能力。
随着模型能力的不断提升,思维链(Chains-of-Thought, CoT)的长度也在逐渐增加。例如,DeepSeek-R1-Distill模型系列在AIME24基准测试上生成的CoT序列平均超过10K个标记,显著超过了早期流行的SFT模型,如Qwen2.5和Llama3.1。尽管已有一些研究尝试将RL应用于长CoT模型,但如何高效且可扩展地利用RL提升长CoT模型的推理能力仍然是一个未解决的问题。
研究目的
本研究旨在开发一种高效且可扩展的RL实现方案,专门针对长CoT模型,以进一步提升其推理能力。具体目标包括:
- 提升推理性能:通过RL优化,显著提升长CoT模型在数学和编程任务中的推理性能。
- 探索高效训练策略:研究并验证适用于长CoT模型的高效RL训练策略,包括数据混合、多阶段训练、优势掩码、高温采样、自适应熵控制和KL损失排除等核心组件。
- 理解熵崩溃现象:深入探讨RL训练过程中出现的熵崩溃现象,识别影响熵动态的关键因素,并提出缓解过早熵崩溃的方法。
- 开源共享:通过开源模型权重、训练代码和训练数据集,支持社区研究,推动LLMs推理能力的进一步提升。
研究方法
数据收集与预处理
为了确保稳定有效的训练,我们从多样化的来源收集问题,并对训练数据进行严格的过滤和质量控制。具体步骤包括:
- 数据源选择:从NuminaMath-1.5、DeepScaleR、STILL-3-Preview-RL-Data、Omni-MATH、AIME历史问题、LeetCode和TACO等多个数据源中收集数学和编程问题。
- 数据过滤:在训练前,移除基础模型正确率为1(完全正确)或0(完全错误)的提示。在训练的每个阶段开始时,也丢弃上一阶段中演员模型达到完全正确的训练提示。
- 拒绝采样:在训练批次中仅包含具有非零优势的组,以减轻KL损失或熵损失对训练过程的不稳定影响。
训练策略
- 多阶段训练:受DeepScaleR启发,我们在训练过程中逐步增加上下文长度,并将训练过程分为多个阶段。在初始阶段使用较短的上下文长度,当模型性能收敛后,再增加上下文长度。
- 优势掩码:在多阶段训练的早期阶段,针对截断响应的优势掩码策略进行了实验,但发现其对后期改进无帮助,且会降低标记效率,因此未在最终训练流程中采用。
- 高温采样:将滚动温度设置为τ=1,以增强模型的探索能力并提高学习可塑性。
- 在线训练:采用在线训练方式,发现其能显著减缓熵崩溃并提高测试性能。
损失函数
- 自适应熵控制:引入目标熵(tgt-ent)作为超参数,动态调整熵损失系数,确保当前熵不低于目标熵,从而保持模型的探索能力。
- 排除KL损失:发现KL损失项会阻碍多阶段训练后期的性能提升,因此在训练流程中排除KL损失。
研究结果
性能提升
Skywork-OR1模型系列在多个基准测试上取得了显著的性能提升。具体而言:
- Skywork-OR1-32B:在AIME24、AIME25和LiveCodeBench上的平均准确率分别达到了82.2%、73.3%和63.0%,相比DeepSeek-R1和Qwen3-32B有了显著提升。
- Skywork-OR1-7B:在AIME24、AIME25和LiveCodeBench上的平均准确率分别达到了70.2%、54.6%和47.6%,在相似规模的模型中展现了竞争力。
- Skywork-OR1-Math-7B:在数学任务中表现优异,在AIME24和AIME25上的平均准确率分别达到了69.8%和52.3%。
熵崩溃现象
通过系统的消融实验,我们深入探讨了熵崩溃现象,并发现:
- 过早熵崩溃通常导致性能下降:适当的熵控制可以减缓过早熵崩溃,从而提高测试性能。
- 增加批量大小和组大小对熵动态影响有限:相比之下,使用较高的采样温度会显著影响初始熵和学习动态。
- 离策略更新加速熵崩溃:通过增加小批量次数或数据重用次数来增加SGD步骤数,会显著加速熵崩溃,并通常导致测试性能下降。
- 自适应熵控制的有效性:通过动态调整熵损失系数或应用适当的裁剪技巧,可以稳定熵动态并提高测试性能。
研究局限
尽管Skywork-OR1在多个基准测试上取得了显著的性能提升,但本研究仍存在一些局限性:
- 数据依赖性:训练数据的来源和质量对模型性能有显著影响。尽管我们采用了严格的数据过滤和质量控制措施,但不同数据源之间的差异仍可能导致模型性能的不稳定。
- 计算资源需求:RL训练过程需要大量的计算资源,尤其是在处理长CoT模型时。尽管我们通过多阶段训练和高温采样等策略提高了训练效率,但对于资源有限的研究团队来说,复现本研究的结果可能仍然具有挑战性。
- 熵崩溃的复杂性:尽管我们深入探讨了熵崩溃现象,并提出了缓解过早熵崩溃的方法,但熵崩溃的复杂性仍未完全揭示。未来研究需要进一步探索熵崩溃的根本原因,并开发更加有效的缓解策略。
未来研究方向
基于本研究的结果和局限性,未来的研究可以从以下几个方面展开:
- 优化数据收集与预处理流程:进一步探索不同数据源之间的差异,并开发更加精细化的数据过滤和质量控制方法,以提高训练数据的多样性和质量。
- 降低计算资源需求:研究更加高效的RL训练算法和硬件加速技术,以降低长CoT模型RL训练的计算资源需求,使更多研究团队能够复现和应用本研究的结果。
- 深入理解熵崩溃:进一步探索熵崩溃的根本原因,并开发更加精确的熵动态监测和调控方法。例如,可以研究不同模型架构和训练策略对熵崩溃的影响,以及如何通过模型架构改进或训练策略调整来减缓熵崩溃。
- 拓展应用场景:将Skywork-OR1应用于更多领域和任务,如自然语言处理、图像生成和强化学习等,以验证其通用性和可扩展性。同时,探索如何将RL与其他技术(如迁移学习、元学习和多模态学习)相结合,以进一步提升模型的性能和应用范围。
- 开源与社区合作:继续开源模型权重、训练代码和训练数据集,并积极与社区合作,共同推动LLMs推理能力的进一步提升。通过共享资源和经验,加速RL在LLMs领域的研究和应用进程。