【AI论文】Skywork Open Reasoner 1技术报告

article/2025/7/1 8:38:55

摘要:DeepSeek-R1的成功凸显了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的重要作用。在本研究中,我们提出了Skywork-OR1,这是一种针对长思维链(Chain-of-Thought,CoT)模型的有效且可扩展的强化学习实现方案。基于DeepSeek-R1-Distill模型系列,我们的强化学习方法取得了显著的性能提升,在AIME24、AIME25和LiveCodeBench数据集上,320亿参数(32B)模型的平均准确率从57.8%提高到了72.8%(提升了15.0%),而70亿参数(7B)模型的平均准确率则从43.6%提高到了57.5%(提升了13.9%)。我们的Skywork-OR1-32B模型在AIME24和AIME25基准测试上超越了DeepSeek-R1和Qwen3-32B,同时在LiveCodeBench上取得了相当的结果。Skywork-OR1-7B和Skywork-OR1-Math-7B模型在相似规模的模型中展现出了具有竞争力的推理能力。我们对训练流程中的核心组件进行了全面的消融研究,以验证其有效性。此外,我们还深入研究了熵崩溃现象,确定了影响熵动态的关键因素,并证明了缓解过早的熵崩溃对于提高测试性能至关重要。为了支持社区研究,我们完全开源了我们的模型权重、训练代码和训练数据集。Huggingface链接:Paper page,论文链接:2505.22312

研究背景和目的

研究背景

近年来,基于强化学习(Reinforcement Learning, RL)的后训练技术在提升大型语言模型(Large Language Models, LLMs)的推理能力方面取得了突破性进展。代表性模型如OpenAI-o1、DeepSeek-R1和Kimi-K1.5等,均展示了RL在数学和编程任务中显著提升模型性能的能力。尽管早期的RL方法主要依赖于蒙特卡洛树搜索(MCTS)或过程奖励模型(PRMs)来改进监督微调(SFT)后的模型,但DeepSeek-R1的成功明确表明,使用基于简单规则奖励的在线RL足以显著提升基础模型的推理能力。

随着模型能力的不断提升,思维链(Chains-of-Thought, CoT)的长度也在逐渐增加。例如,DeepSeek-R1-Distill模型系列在AIME24基准测试上生成的CoT序列平均超过10K个标记,显著超过了早期流行的SFT模型,如Qwen2.5和Llama3.1。尽管已有一些研究尝试将RL应用于长CoT模型,但如何高效且可扩展地利用RL提升长CoT模型的推理能力仍然是一个未解决的问题。

研究目的

本研究旨在开发一种高效且可扩展的RL实现方案,专门针对长CoT模型,以进一步提升其推理能力。具体目标包括:

  1. 提升推理性能:通过RL优化,显著提升长CoT模型在数学和编程任务中的推理性能。
  2. 探索高效训练策略:研究并验证适用于长CoT模型的高效RL训练策略,包括数据混合、多阶段训练、优势掩码、高温采样、自适应熵控制和KL损失排除等核心组件。
  3. 理解熵崩溃现象:深入探讨RL训练过程中出现的熵崩溃现象,识别影响熵动态的关键因素,并提出缓解过早熵崩溃的方法。
  4. 开源共享:通过开源模型权重、训练代码和训练数据集,支持社区研究,推动LLMs推理能力的进一步提升。

研究方法

数据收集与预处理

为了确保稳定有效的训练,我们从多样化的来源收集问题,并对训练数据进行严格的过滤和质量控制。具体步骤包括:

  1. 数据源选择:从NuminaMath-1.5、DeepScaleR、STILL-3-Preview-RL-Data、Omni-MATH、AIME历史问题、LeetCode和TACO等多个数据源中收集数学和编程问题。
  2. 数据过滤:在训练前,移除基础模型正确率为1(完全正确)或0(完全错误)的提示。在训练的每个阶段开始时,也丢弃上一阶段中演员模型达到完全正确的训练提示。
  3. 拒绝采样:在训练批次中仅包含具有非零优势的组,以减轻KL损失或熵损失对训练过程的不稳定影响。
训练策略
  1. 多阶段训练:受DeepScaleR启发,我们在训练过程中逐步增加上下文长度,并将训练过程分为多个阶段。在初始阶段使用较短的上下文长度,当模型性能收敛后,再增加上下文长度。
  2. 优势掩码:在多阶段训练的早期阶段,针对截断响应的优势掩码策略进行了实验,但发现其对后期改进无帮助,且会降低标记效率,因此未在最终训练流程中采用。
  3. 高温采样:将滚动温度设置为τ=1,以增强模型的探索能力并提高学习可塑性。
  4. 在线训练:采用在线训练方式,发现其能显著减缓熵崩溃并提高测试性能。
损失函数
  1. 自适应熵控制:引入目标熵(tgt-ent)作为超参数,动态调整熵损失系数,确保当前熵不低于目标熵,从而保持模型的探索能力。
  2. 排除KL损失:发现KL损失项会阻碍多阶段训练后期的性能提升,因此在训练流程中排除KL损失。

研究结果

性能提升

Skywork-OR1模型系列在多个基准测试上取得了显著的性能提升。具体而言:

  • Skywork-OR1-32B:在AIME24、AIME25和LiveCodeBench上的平均准确率分别达到了82.2%、73.3%和63.0%,相比DeepSeek-R1和Qwen3-32B有了显著提升。
  • Skywork-OR1-7B:在AIME24、AIME25和LiveCodeBench上的平均准确率分别达到了70.2%、54.6%和47.6%,在相似规模的模型中展现了竞争力。
  • Skywork-OR1-Math-7B:在数学任务中表现优异,在AIME24和AIME25上的平均准确率分别达到了69.8%和52.3%。
熵崩溃现象

通过系统的消融实验,我们深入探讨了熵崩溃现象,并发现:

  1. 过早熵崩溃通常导致性能下降:适当的熵控制可以减缓过早熵崩溃,从而提高测试性能。
  2. 增加批量大小和组大小对熵动态影响有限:相比之下,使用较高的采样温度会显著影响初始熵和学习动态。
  3. 离策略更新加速熵崩溃:通过增加小批量次数或数据重用次数来增加SGD步骤数,会显著加速熵崩溃,并通常导致测试性能下降。
  4. 自适应熵控制的有效性:通过动态调整熵损失系数或应用适当的裁剪技巧,可以稳定熵动态并提高测试性能。

研究局限

尽管Skywork-OR1在多个基准测试上取得了显著的性能提升,但本研究仍存在一些局限性:

  1. 数据依赖性:训练数据的来源和质量对模型性能有显著影响。尽管我们采用了严格的数据过滤和质量控制措施,但不同数据源之间的差异仍可能导致模型性能的不稳定。
  2. 计算资源需求:RL训练过程需要大量的计算资源,尤其是在处理长CoT模型时。尽管我们通过多阶段训练和高温采样等策略提高了训练效率,但对于资源有限的研究团队来说,复现本研究的结果可能仍然具有挑战性。
  3. 熵崩溃的复杂性:尽管我们深入探讨了熵崩溃现象,并提出了缓解过早熵崩溃的方法,但熵崩溃的复杂性仍未完全揭示。未来研究需要进一步探索熵崩溃的根本原因,并开发更加有效的缓解策略。

未来研究方向

基于本研究的结果和局限性,未来的研究可以从以下几个方面展开:

  1. 优化数据收集与预处理流程:进一步探索不同数据源之间的差异,并开发更加精细化的数据过滤和质量控制方法,以提高训练数据的多样性和质量。
  2. 降低计算资源需求:研究更加高效的RL训练算法和硬件加速技术,以降低长CoT模型RL训练的计算资源需求,使更多研究团队能够复现和应用本研究的结果。
  3. 深入理解熵崩溃:进一步探索熵崩溃的根本原因,并开发更加精确的熵动态监测和调控方法。例如,可以研究不同模型架构和训练策略对熵崩溃的影响,以及如何通过模型架构改进或训练策略调整来减缓熵崩溃。
  4. 拓展应用场景:将Skywork-OR1应用于更多领域和任务,如自然语言处理、图像生成和强化学习等,以验证其通用性和可扩展性。同时,探索如何将RL与其他技术(如迁移学习、元学习和多模态学习)相结合,以进一步提升模型的性能和应用范围。
  5. 开源与社区合作:继续开源模型权重、训练代码和训练数据集,并积极与社区合作,共同推动LLMs推理能力的进一步提升。通过共享资源和经验,加速RL在LLMs领域的研究和应用进程。

http://www.hkcw.cn/article/QCtFuUgPMR.shtml

相关文章

webfuture:如何屏蔽后台发文界面的保存为新文章按钮?

问题描述: 如何屏蔽后台发文界面的保存为新文章按钮? 问题解决:修改这个文件 /Admin/Content/Base/css/base.css 定义这个的id saveAsNewItemSubmit #saveAsNewItemSubmit{display: none;}

类和对象:实现日期类

目录 概述 一.实现日期类的基本框架 二.实现比较的运算符重载 1.>的运算符重载 2.的运算符重载 3.其余的比较运算符重载 三.加减天数的运算符重载 1.,的运算符重载 2.-,-的运算符重载 3.对1和2的小优化 四.两个日期类相减的重载 1.,--的重…

uniapp中view标签使用范围

不止用于微信小程序。兼容型号,是uniapp内置组件之一,在uniapp中进行了跨平台适配。支持所有uniapp的平台。如微信小程序、h5、app、支付宝小程序

【接口测试】基础知识

目录 何为接口 概念 类型 何为接口测试 概念 原理 特点 接口自动化的定义 HTTP协议超文本传输协议 概念 特征 URL 统一资源定位符 http请求 http响应 传统风格的接口 RESTful接口 接口测试流程 接口文档 作用 展现形式 文档中每个接口信息的结构 测试的任…

rabbitmq Direct交换机简介

在实际开发中,需求可能变得复杂,如消息的收发和处理。以支付系统为例,成功支付后需要改变订单状态并通知用户,而失败则不需要。为处理这种情况,提出了使用Direct交换机,它可以根据规则将消息路由到指定队列…

贪心算法应用:装箱问题(FFD问题)详解

贪心算法应用:装箱问题(FFD问题)详解 1. 装箱问题概述 装箱问题(Bin Packing Problem)是计算机科学和运筹学中的一个经典组合优化问题。问题的描述如下: 给定一组物品,每个物品有一定的体积,以及若干容量相同的箱子&#xff0c…

如何在 Windows 11 中永久更改默认浏览器:阻止 Edge 占据主导地位

在 Windows 11 中更改默认浏览器对于新手或技术不太熟练的用户来说可能会令人沮丧。 为什么要在 Windows 11 中更改默认浏览器? 这是一个重要的问题:你为什么要从 Microsoft Edge 切换过来? 生态系统集成:如果你已经在广泛使用 Google 服务,Chrome 可以提供无缝集成。同…

【MySQL】视图与用户管理

目录 一、视图 (一)基本使用 1、创建视图 2、修改视图 3、删除视图 (二)视图规则和限制 二、用户管理 (一)用户操作 1、用户信息 2、创建用户 3、删除用户 4、修改用户密码 (二&…

PNG文件格式

文章目录 一、概述二、文件结构三、文件署名域四、数据块1、IDHR文件头数据块2、调色板数据块3、IDAT数据块4、IEND数据块 五、其他辅助数据块(了解即可)六、动态png——APNG 一、概述 PNG是20世纪90年代中期开始开发的图像文件存储格式,其目…

Python_day43

DAY 43 复习日 作业: kaggle找到一个图像数据集,用cnn网络进行训练并且用grad-cam做可视化 进阶:并拆分成多个文件 关于 Dataset 从谷歌图片中抓取了 1000 多张猫和狗的图片。问题陈述是构建一个模型,该模型可以尽可能准确地在图像…

【Quest开发】bug记录——Link界面无音频选项

此方法适用于这个不见了的情况 打开设备管理器,点击卸载 再到Oculus\Support\oculus-drivers找到oculus-driver点击重装驱动,重启电脑即可修复

汇编语言学习(二)——寄存器

目录 一、通用寄存器 二、数据存储 三、汇编指令 四、物理地址 五 、段寄存器 一、通用寄存器 在8086 CPU中,通用寄存器共有四个,分别是 AX、BX、CX 和 DX,它们通常用于存放一般性的数据,均为 16 位寄存器,可以存…

Error creating bean with name *.PageHelperAutoConfiguration 异常解析

一、问题报错 微服务安装成功,启动失败,报错如下: 二、 Spring Boot应用启动错误分析 错误概述 这是一个Spring Boot应用启动过程中出现的Bean创建错误。根据错误堆栈,主要问题在于无法创建PageHelper分页插件的自动配置类。 …

【Zephyr 系列 3】多线程与调度机制:让你的 MCU 同时干多件事

好的,下面是Zephyr 系列第 3 篇:聚焦 多线程与调度机制的实践应用,继续面向你这样的 Ubuntu + 真板实战开发者,代码清晰、讲解通俗、结构规范,符合 CSDN 高质量博客标准。 🧠关键词:Zephyr、线程调度、k_thread、k_sleep、RTOS、BluePill 📌适合人群:想从裸机开发进…

AI万能写作v1.0.12

AI万能写作是一款高度自动化、智能化、个性化的AI智能软件,旨在通过人工智能技术进行内容整合创作,为用户提供便捷高效的写作辅助。这款APP能够一键生成各类素材内容,帮助用户快速获取思路和灵感,成为写作、学习、工作以及日常生活…

【Linux网络篇】:HTTP协议深度解析---基础概念与简单的HTTP服务器实现

✨感谢您阅读本篇文章,文章内容是个人学习笔记的整理,如果哪里有误的话还请您指正噢✨ ✨ 个人主页:余辉zmh–CSDN博客 ✨ 文章所属专栏:Linux篇–CSDN博客 文章目录 一.三个预备知识认识域名认识URL认识URL编码和解码 二.http请求…

【JAVA后端入门基础001】Tomcat 是什么?通俗易懂讲清楚!

📚博客主页:代码探秘者 ✨专栏:《JavaSe》 其他更新ing… ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ 🙏作者水平有限,欢迎各位大佬指点&…

系统思考:成长与投资不足

最近认识了一位95后年轻创业者,短短2年时间,他的公司从十几个人发展到几百人,规模迅速扩大。随着团队壮大,用户池也在持续扩大,但令人困惑的是,业绩增长却没有明显提升,甚至人效持续下滑。尽管公…

PHP7+MySQL5.6 查立得轻量级公交查询系统

# PHP7MySQL5.6 查立得轻量级公交查询系统 ## 系统简介 本系统是一个基于PHP7和MySQL5.6的轻量级公交查询系统(40KB级),支持线路查询、站点查询和换乘查询功能。系统采用原生PHPMySQL开发,无需第三方框架,适合手机端访问。 首发版本&#x…

【笔记】Windows系统部署suna基于 MSYS2的Poetry 虚拟环境backedn后端包编译失败处理

基于 MSYS2(MINGW64)中 Python 的 Poetry 虚拟环境包编译失败处理笔记 一、背景 在基于 MSYS2(MINGW64)中 Python 创建的 Poetry 虚拟环境里,安装 Suna 开源项目相关包时编译失败,阻碍项目正常部署。 后端…