【AI论文】Skywork Open Reasoner 1技术报告-海口c网

摘要：DeepSeek-R1的成功凸显了强化学习（RL）在提升大型语言模型（LLMs）推理能力方面的重要作用。在本研究中，我们提出了Skywork-OR1，这是一种针对长思维链（Chain-of-Thought，CoT）模型的有效且可扩展的强化学习实现方案。基于DeepSeek-R1-Distill模型系列，我们的强化学习方法取得了显著的性能提升，在AIME24、AIME25和LiveCodeBench数据集上，320亿参数（32B）模型的平均准确率从57.8%提高到了72.8%（提升了15.0%），而70亿参数（7B）模型的平均准确率则从43.6%提高到了57.5%（提升了13.9%）。我们的Skywork-OR1-32B模型在AIME24和AIME25基准测试上超越了DeepSeek-R1和Qwen3-32B，同时在LiveCodeBench上取得了相当的结果。Skywork-OR1-7B和Skywork-OR1-Math-7B模型在相似规模的模型中展现出了具有竞争力的推理能力。我们对训练流程中的核心组件进行了全面的消融研究，以验证其有效性。此外，我们还深入研究了熵崩溃现象，确定了影响熵动态的关键因素，并证明了缓解过早的熵崩溃对于提高测试性能至关重要。为了支持社区研究，我们完全开源了我们的模型权重、训练代码和训练数据集。Huggingface链接：Paper page，论文链接：2505.22312

研究背景和目的

研究背景

近年来，基于强化学习（Reinforcement Learning, RL）的后训练技术在提升大型语言模型（Large Language Models, LLMs）的推理能力方面取得了突破性进展。代表性模型如OpenAI-o1、DeepSeek-R1和Kimi-K1.5等，均展示了RL在数学和编程任务中显著提升模型性能的能力。尽管早期的RL方法主要依赖于蒙特卡洛树搜索（MCTS）或过程奖励模型（PRMs）来改进监督微调（SFT）后的模型，但DeepSeek-R1的成功明确表明，使用基于简单规则奖励的在线RL足以显著提升基础模型的推理能力。

随着模型能力的不断提升，思维链（Chains-of-Thought, CoT）的长度也在逐渐增加。例如，DeepSeek-R1-Distill模型系列在AIME24基准测试上生成的CoT序列平均超过10K个标记，显著超过了早期流行的SFT模型，如Qwen2.5和Llama3.1。尽管已有一些研究尝试将RL应用于长CoT模型，但如何高效且可扩展地利用RL提升长CoT模型的推理能力仍然是一个未解决的问题。

研究目的

本研究旨在开发一种高效且可扩展的RL实现方案，专门针对长CoT模型，以进一步提升其推理能力。具体目标包括：

提升推理性能：通过RL优化，显著提升长CoT模型在数学和编程任务中的推理性能。
探索高效训练策略：研究并验证适用于长CoT模型的高效RL训练策略，包括数据混合、多阶段训练、优势掩码、高温采样、自适应熵控制和KL损失排除等核心组件。
理解熵崩溃现象：深入探讨RL训练过程中出现的熵崩溃现象，识别影响熵动态的关键因素，并提出缓解过早熵崩溃的方法。
开源共享：通过开源模型权重、训练代码和训练数据集，支持社区研究，推动LLMs推理能力的进一步提升。

研究方法

数据收集与预处理

为了确保稳定有效的训练，我们从多样化的来源收集问题，并对训练数据进行严格的过滤和质量控制。具体步骤包括：

数据源选择：从NuminaMath-1.5、DeepScaleR、STILL-3-Preview-RL-Data、Omni-MATH、AIME历史问题、LeetCode和TACO等多个数据源中收集数学和编程问题。
数据过滤：在训练前，移除基础模型正确率为1（完全正确）或0（完全错误）的提示。在训练的每个阶段开始时，也丢弃上一阶段中演员模型达到完全正确的训练提示。
拒绝采样：在训练批次中仅包含具有非零优势的组，以减轻KL损失或熵损失对训练过程的不稳定影响。

训练策略

多阶段训练：受DeepScaleR启发，我们在训练过程中逐步增加上下文长度，并将训练过程分为多个阶段。在初始阶段使用较短的上下文长度，当模型性能收敛后，再增加上下文长度。
优势掩码：在多阶段训练的早期阶段，针对截断响应的优势掩码策略进行了实验，但发现其对后期改进无帮助，且会降低标记效率，因此未在最终训练流程中采用。
高温采样：将滚动温度设置为τ=1，以增强模型的探索能力并提高学习可塑性。
在线训练：采用在线训练方式，发现其能显著减缓熵崩溃并提高测试性能。

损失函数

自适应熵控制：引入目标熵（tgt-ent）作为超参数，动态调整熵损失系数，确保当前熵不低于目标熵，从而保持模型的探索能力。
排除KL损失：发现KL损失项会阻碍多阶段训练后期的性能提升，因此在训练流程中排除KL损失。

研究结果

性能提升

Skywork-OR1模型系列在多个基准测试上取得了显著的性能提升。具体而言：

Skywork-OR1-32B：在AIME24、AIME25和LiveCodeBench上的平均准确率分别达到了82.2%、73.3%和63.0%，相比DeepSeek-R1和Qwen3-32B有了显著提升。
Skywork-OR1-7B：在AIME24、AIME25和LiveCodeBench上的平均准确率分别达到了70.2%、54.6%和47.6%，在相似规模的模型中展现了竞争力。
Skywork-OR1-Math-7B：在数学任务中表现优异，在AIME24和AIME25上的平均准确率分别达到了69.8%和52.3%。

熵崩溃现象

通过系统的消融实验，我们深入探讨了熵崩溃现象，并发现：

过早熵崩溃通常导致性能下降：适当的熵控制可以减缓过早熵崩溃，从而提高测试性能。
增加批量大小和组大小对熵动态影响有限：相比之下，使用较高的采样温度会显著影响初始熵和学习动态。
离策略更新加速熵崩溃：通过增加小批量次数或数据重用次数来增加SGD步骤数，会显著加速熵崩溃，并通常导致测试性能下降。
自适应熵控制的有效性：通过动态调整熵损失系数或应用适当的裁剪技巧，可以稳定熵动态并提高测试性能。

研究局限

尽管Skywork-OR1在多个基准测试上取得了显著的性能提升，但本研究仍存在一些局限性：

数据依赖性：训练数据的来源和质量对模型性能有显著影响。尽管我们采用了严格的数据过滤和质量控制措施，但不同数据源之间的差异仍可能导致模型性能的不稳定。
计算资源需求：RL训练过程需要大量的计算资源，尤其是在处理长CoT模型时。尽管我们通过多阶段训练和高温采样等策略提高了训练效率，但对于资源有限的研究团队来说，复现本研究的结果可能仍然具有挑战性。
熵崩溃的复杂性：尽管我们深入探讨了熵崩溃现象，并提出了缓解过早熵崩溃的方法，但熵崩溃的复杂性仍未完全揭示。未来研究需要进一步探索熵崩溃的根本原因，并开发更加有效的缓解策略。

未来研究方向

基于本研究的结果和局限性，未来的研究可以从以下几个方面展开：

优化数据收集与预处理流程：进一步探索不同数据源之间的差异，并开发更加精细化的数据过滤和质量控制方法，以提高训练数据的多样性和质量。
降低计算资源需求：研究更加高效的RL训练算法和硬件加速技术，以降低长CoT模型RL训练的计算资源需求，使更多研究团队能够复现和应用本研究的结果。
深入理解熵崩溃：进一步探索熵崩溃的根本原因，并开发更加精确的熵动态监测和调控方法。例如，可以研究不同模型架构和训练策略对熵崩溃的影响，以及如何通过模型架构改进或训练策略调整来减缓熵崩溃。
拓展应用场景：将Skywork-OR1应用于更多领域和任务，如自然语言处理、图像生成和强化学习等，以验证其通用性和可扩展性。同时，探索如何将RL与其他技术（如迁移学习、元学习和多模态学习）相结合，以进一步提升模型的性能和应用范围。
开源与社区合作：继续开源模型权重、训练代码和训练数据集，并积极与社区合作，共同推动LLMs推理能力的进一步提升。通过共享资源和经验，加速RL在LLMs领域的研究和应用进程。