长上下文推理新范式!QwenLong-L1如何通过强化学习突破大模型语境局限?

article/2025/8/13 19:12:53

长上下文推理新范式!QwenLong-L1如何通过强化学习突破大模型语境局限?

在大模型推理能力不断精进的今天,长上下文处理仍是亟待突破的难题。本文介绍的QwenLong-L1框架,借助渐进式语境扩展与强化学习,成功让大模型在长文档理解任务中实现性能跃升,其32B模型性能比肩Claude-3.7,为长上下文推理模型的发展开辟了新路径。

论文标题
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
来源
arXiv:2505.17667v2 [cs.CL] + https://arxiv.org/abs/2505.17667

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

近年来,大推理模型(LRMs)借助强化学习(RL)在短上下文推理任务中取得显著进展,像OpenAI-o1、DeepSeek-R1等模型通过RL优化,在逻辑推理、编程、数学等领域展现出类似人类“慢思考”的链式推理(CoT)能力。然而,当将这些模型扩展到120K tokens的长上下文场景时,其性能面临严峻挑战。长上下文推理需模型从输入中检索信息并锚定推理链,而现有RL方法在训练效率(奖励收敛延迟)、优化稳定性(KL散度波动)及输出多样性(熵值降低)等方面存在明显不足,严重制约了LRMs在深度研究、知识密集型交互等实际场景中的应用。

研究问题

1. 训练效率低下:长上下文推理RL中,奖励收敛延迟,如实验显示长上下文场景下奖励提升速度比短上下文慢,这严重影响模型优化进程。

2. 优化过程不稳定:KL散度波动大,输出熵减少限制策略探索,例如长上下文处理时输出熵显著降低,导致模型探索新推理路径的能力受限。

3. 输入输出特性挑战:输入长度分布异质且输出更长,方差放大引发训练不稳定,这使得模型在处理不同长度的长上下文时表现差异较大。

主要贡献

1. 提出长上下文推理RL范式:首次明确长上下文推理RL的独特挑战,与短上下文依赖内部参数知识不同,长上下文需从输入中检索并锚定信息,为该领域研究奠定基础。

2. 设计QwenLong-L1框架:通过渐进式语境扩展,包含热身监督微调(SFT)、课程引导分阶段RL和难度感知回顾采样,实现从短到长上下文的稳定适应,这是首个专为长上下文LRMs设计的RL框架。

3. 刷新性能基准:在7个长上下文文档问答基准上,QwenLong-L1-32B平均准确率比R1-Distill-Qwen-32B提升5.1个点,超越OpenAI-o3-mini等模型,性能与Claude-3.7-Sonnet-Thinking相当。

方法论精要

1. 核心算法/框架:QwenLong-L1框架采用渐进式语境扩展策略,集成Group Relative Policy Optimization(GRPO、DAPO)与混合奖励机制。其中,GRPO通过组归一化奖励估计优势,DAPO则引入动态采样和长度惩罚等技术,确保长上下文训练的稳定性。

2. 关键参数设计原理:

  • 热身SFT阶段:使用5.3K高质量三元组,在20K输入长度下训练,使模型具备基础的上下文理解和答案提取能力,为后续RL训练提供稳定起点。
  • 分阶段RL:分两阶段训练,阶段I输入长度20K,阶段II提升至60K,每个阶段仅处理特定长度范围内的示例,引导模型逐步适应长上下文。最大输出采样长度10K.
  • 难度感知采样:以逆平均奖励作为难度分数,优先采样低奖励的困难实例,激励模型探索复杂推理模式。

3. 创新性技术组合:

  • 课程引导与回顾采样结合:分阶段增加上下文长度,同时从前期阶段回溯困难样本,平衡训练难度与探索需求。
  • 混合奖励机制:融合基于规则的严格答案匹配(确保精度)和LLM裁判的语义等价评估(提升召回),如使用Qwen2.5-1.5B-Instruct作为裁判模型,动态调整奖励分数。

4. 实验验证方式:

  • 数据集:构建DOCQA-RL-1.6K训练集,包含数学、逻辑和多跳推理问题;测试采用7个长上下文基准,如DocMath、Frames、2WikiMultihopQA等。
  • 基线方法:对比Proprietary LRMs(OpenAI-o3-mini、Claude-3.7等)和Open-Source LRMs(DeepSeek-R1、Qwen3-235B-A22B等),评估模型在长上下文推理中的表现。

实验洞察

1. 性能优势:

  • 平均准确率提升:QwenLong-L1-32B在7个基准上平均准确率达70.7%,比R1-Distill-Qwen-32B提升5.1%,超越Qwen3-235B-A22B(70.6%)和OpenAI-o3-mini(70.4%),与Claude-3.7(70.7%)持平。
  • 单任务表现:在DocMath任务中,QwenLong-L1-32B准确率67.5%,优于Qwen3-235B-A22B(67.5%)和OpenAI-o3-mini(66.5%);在Frames任务中,准确率70.1%,较基线有显著提升。

2. 消融研究:

  • warm up SFT有效性:引入SFT后,模型奖励提升加速且梯度范数更低,如QwenLong-L1-14B通过SFT+RL比仅RL平均提升4.1%。
  • 分阶段RL必要性:单阶段RL相比课程引导分阶段RL,KL散度波动更大,熵值更低,证明分阶段训练能稳定策略进化。
  • 回顾采样价值:困难样本的保留使训练阶段奖励更低但熵更高,推动模型探索,如结合回顾采样的模型比仅分阶段RL平均提升0.5-1.5%。

3. Additional Analysis关键发现

(1)SFT与RL的优化权衡

长上下文SFT模型(使用10K三元组训练)相较短上下文SFT提升2.1%,但进一步RL仅带来0.3%增益,显著低于短上下文SFT+RL的3.2%提升。这表明: (1)SFT是经济的性能提升方案(计算复杂度低、数据需求少),但RL对突破性能上限不可或缺; (2)过度依赖长上下文SFT可能使模型陷入局部最优,限制RL优化空间。

(2)长上下文推理行为演化。通过DeepSeek-V3追踪发现,RL训练显著增强四大推理行为:

  • 信息锚定(Grounding):模型检索长上下文信息的频率最高,如“查阅文档第X段”的表述占比提升37%;
  • 子目标分解(Subgoal Setting):将复杂问题拆解为“先计算A,再验证B”的步骤化推理增加29%;
  • 回溯修正(Backtracking):主动识别错误并调整推理路径的行为提升41%,如案例中QwenLong-L1通过“此方法错误,需重新计算”修正结果;
  • 结果验证(Verification):系统性验证答案正确性的表述增加33%,如“通过反推验证结论”的推理链占比上升。

SFT虽增加推理行为频次,但因依赖模仿学习,未转化为性能提升(如SFT模型在DocMath中准确率仅微涨0.8%)。


http://www.hkcw.cn/article/chnVcRPVNv.shtml

相关文章

git 学习

目录 关于git 版本管理概述 git的优点 一 下载,安装git 二 使用git 的处理流程 三 学习基本的git命令 1 git初始化 2 查看 状态 3 提交的缓存区 4回退到工作区 关于git 版本管理概述 码云:Gitee - 基于 Git 的代码托管和研发协作平台 git 是用…

中国风展示工作总结商务通用PPT模版

中国风展示工作总结商务通用PPT模版:中国风商务通用PPT 模版https://pan.quark.cn/s/42ad18c010d4

gitflow

gitflow 1. 各个分支介绍 master分支: 源代码 HEAD始终反映出生产就绪状态。仅包含 生产环境可发布的代码,每个提交对应一个正式版本(通过 git tag 打版本号)一般情况下,只允许合并(如从 release 或 hotfix 分支合并), 禁止直接提…

Python训练营---Day42

DAY 42 Grad-CAM与Hook函数 知识点回顾 回调函数lambda函数hook函数的模块钩子和张量钩子Grad-CAM的示例 作业:理解下今天的代码即可 1、回调函数 回调函数(Callback Function)是一种特殊的函数,它作为参数传递给另一个函数&#…

Git远程操作

目录 1. 理解分布式版本控制系统 2. 远程仓库 3. 新建远程仓库 4. 克隆远程仓库 4.1 使用HTTPS方式: 4.2 使用SSH方式: 5. 向远程仓库推送 总结: 问题: 6. 拉取远程仓库 7. 配置Git 7.1 忽略特殊文件 8. 给命令配置别…

SolidWorks软件的安装与卸载

文章目录 软件的下载途径软件的安装软件的卸载 简介:这篇文章介绍了SolidWorks软件的安装与卸载,步骤是比较繁琐的,但照着步骤一步一步的来15分钟就能安装成功。这里要特别的注意一点的是,文件的安装位置一定要集中(别…

Python 验证码识别(使用pytesseract库)

文章目录 摘要1、安装Tesseract-OCR2、在python中使用安装依赖 3、本地图片识别4、结合playwright动态识别网站验证码 摘要 python中使用pytesseract库进行ocr识别,需要安装Tesseract-OCR,通过指定pytesseract.tesseract_cmd路径,可以将esser…

日志与策略模式

什么是设计模式 IT行业这么火, 涌入的人很多. 俗话说林子大了啥鸟都有. 大佬和菜鸡们两极分化的越来越严重. 为了让菜鸡们不太拖大佬的后腿, 于是大佬们针对一些经典的常见的场景, 给定了一些对应的解决方案, 这个就是 设计模式 日志认识 计算机中的日志是记录系统和软件运行中…

ToolsSet之:XML工具

ToolsSet是微软商店中的一款包含数十种实用工具数百种细分功能的工具集合应用,应用基本功能介绍可以查看以下文章: Windows应用ToolsSet介绍https://blog.csdn.net/BinField/article/details/145898264 ToolsSet中Text菜单下的XML Tool工具是一个Xml工…

2025年目前最新版本Android Studio自定义xml预览的屏幕分辨率

一、前言 在实际开发项目当中,我们的设备的分辨率可能会比较特殊,AS并没有自带这种屏幕分辨率的设备,但是我们又想一边编写XML界面,一边实时看到较为真实的预览效果,该怎么办呢?在早期的AS版本中&#xff…

sql知识梳理(超全,超详细,自用)

目录 通识 查询的基本语法 数据库(database)操作 表(table)的操作 表中列的操作 索引操作 表中行的操作 insert into语句 update语句 删除语句 select语句 表与表之间的关系 连接查询 子查询 视图 数据备份与还原 …

数据分析图表类型及其应用场景

说明:顶部HTML文件下载后可以直接查看,带有示图。 摘要 数据可视化作为现代数据分析的核心环节,旨在将复杂、抽象的数据转化为直观、易懂的图形形式。这种转化显著提升了业务决策能力,优化了销售与营销活动,开辟了新…

1、树莓派更换软件下载源

树莓派官方系统raspbian自带的是国外的软件源,在国内使用经常会遇到无法下载软件的问题。 以下是把raspbian系统(buster版本)的下载源改为阿里云软件源的方法。 1、修改sources.list文件 sudo nano /etc/apt/sources.list 将初始化中的代…

TDengine 集群容错与灾备

简介 为了防止数据丢失、误删操作,TDengine 提供全面的数据备份、恢复、容错、异地数据实时同步等功能,以保证数据存储的安全。本节简要说明 TDengine 中的容错与灾备。 容错 TDengine 支持 WAL 机制,实现数据的容错能力,保证数…

第十五章 访问控制

系列文章目录 第一章 总体概述 第二章 在实体机上安装ubuntu 第三章 Windows远程连接ubuntu 第四章 使用Docker安装和运行EMQX 第五章 Docker卸载EMQX 第六章 EMQX客户端MQTTX Desktop的安装与使用 第七章 EMQX客户端MQTTX CLI的安装与使用 第八章 Wireshark工具的安装与使用 …

LeetCode算法题 (搜索二维矩阵)Day18!!!C/C++

https://leetcode.cn/problems/search-a-2d-matrix/description/ 一、题目分析 给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 ta…

基于谷歌ADK的智能客服系统简介

Google的智能体开发工具包(Agent Development Kit,简称ADK)是一个开源的、以代码为中心的Python工具包,旨在帮助开发者更轻松、更灵活地构建、评估和部署复杂的人工智能智能体(AI Agent)。ADK 是一个灵活的…

MySql(十三)

目录 mysql外键约束 准备工作 创建表 插入数据 创建表时添加外键 1..格式 2..创建表student表时,为其添加外键 3.插入数据测试 正常数据 异常数据 3.使用alter添加外键 删除外键 添加外键 4.Mysql外键不生效的原因 修改引擎 phpystudy的mysql位置 mysql外键约束 注&…

WEBSTORM前端 —— 第3章:移动 Web —— 第2节:空间转换、转化

目录 一、空间转换 1.空间转换 2.空间转换 – 平移 3.视距 perspective 4.空间 – 旋转 ③空间旋转——Z轴代码与效果视频 ④空间旋转——X轴代码与效果视频 ⑤空间旋转——Y轴代码与效果视频 5.立体呈现 – transform-style 案例 – 3D 导航 6.空间转换 – 缩放 …

【AI论文】R2R:通过小型与大型模型之间的令牌路由高效导航发散推理路径

摘要:大型语言模型(LLMs)以巨大的推理开销为代价,实现了令人印象深刻的推理能力,这带来了巨大的部署挑战。 尽管蒸馏的小语言模型(SLM)显著提高了效率,但由于它们无法遵循LLM的推理路…