R1-Searcher++新突破!强化学习如何赋能大模型动态知识获取?

article/2025/6/15 17:58:26

R1-Searcher++新突破!强化学习如何赋能大模型动态知识获取?

大语言模型(LLM)虽强大却易因静态知识产生幻觉,检索增强生成(RAG)技术成破局关键。本文将解读R1-Searcher++框架,看其如何通过两阶段训练策略,让LLM智能融合内外知识,实现高效推理,为AI知识获取开辟新路径。

论文标题
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning
来源
arXiv:2505.17005v1 [cs.CL] + https://arxiv.org/abs/2505.17005

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLMs)虽能凭借参数中编码的信息展现出色推理能力,但对静态内部知识的依赖使其存在明显局限,容易产生幻觉,在开放任务中表现不佳。因此,让 LLM 在推理困惑时获取外部信息以实现更审慎推理至关重要。为解决此问题,大量研究聚焦于用外部信息源增强 LLM(即 RAG),早期方法强调特定提示策略,后续研究通过监督微调将此能力提炼到更小 LLM 中,但基于 SFT 的提炼会使模型记忆解决方案路径,限制其在新场景的泛化能力。

研究问题

  1. 过度依赖外部检索:传统RAG方法或基于强化学习的检索模型,训练后常过度依赖外部搜索引擎,忽略模型自身内部知识的利用。

  2. 知识利用效率低:模型未能有效在内部知识和外部检索间动态切换,导致检索次数多、推理效率低。

  3. 知识积累能力弱:缺乏对检索到的外部知识的记忆机制,无法将新信息转化为内部知识,难以持续提升推理能力。

主要贡献

  1. 两阶段训练框架:提出R1-Searcher++,通过SFT冷启动阶段让模型初步学习格式,再用强化学习(RL)实现动态知识获取,使LLM能自适应利用内外知识,这与现有RAG方法显著不同。

  2. 动态知识管理机制:设计奖励机制鼓励模型利用内部知识,引入记忆机制将检索信息转化为内部知识,实现知识的动态积累与高效利用,提升推理效率。

  3. 性能与效率双提升:实验表明,该方法在多跳问答任务上优于现有RAG和推理方法,相比基于RL的基线模型,检索次数减少42.9%,实现性能与效率的平衡。

方法论精要

1. 核心框架: R1-Searcher++采用两阶段训练策略。第一阶段为SFT冷启动,通过拒绝采样收集符合格式要求的数据,对模型进行初步格式学习;第二阶段为RL动态知识获取,利用基于结果的RL训练模型,结合内部知识利用鼓励和外部知识记忆机制,引导模型动态获取知识。

2. 关键参数设计原理:

SFT阶段:使用拒绝采样,仅保留包含适当和标签的正确响应,目标函数如下,其中 M i M_{i} Mi用于屏蔽外部文档token:

RL阶段:奖励函数由格式奖励、答案奖励和组奖励组成。格式奖励确保响应格式正确,答案奖励采用覆盖精确匹配(CEM) metric并限制答案在10字内,组奖励通过计算同一问题正确响应中检索器调用次数的标准差,鼓励模型减少对外部检索的依赖,最终奖励 R ( q , o i ) = R f o r m a t ( q , o i ) + R a n s w e r ( q , o i ) + R g r o u p ( q , o i ) R(q, o_{i})=R_{format }\left(q, o_{i}\right)+R_{answer }\left(q, o_{i}\right)+R_{group }\left(q, o_{i}\right) R(q,oi)=Rformat(q,oi)+Ranswer(q,oi)+Rgroup(q,oi)

3. 创新性技术组合: 将SFT与RL结合,在RL中融入内部知识利用鼓励和外部知识记忆机制。记忆机制通过训练单独的重写模型,将检索到的文档转化为模型可内部化的推理路径,损失函数为 L ( θ ) = − J M a s k ( θ ) + μ ∗ L M ( θ ) \mathcal{L}(\theta)=-\mathcal{J}{Mask }(\theta)+\mu * \mathcal{L}{M}(\theta) L(θ)=JMask(θ)+μLM(θ),其中 μ \mu μ为预定义系数,平衡策略模型训练和知识记忆。

4. 实验验证方式: 使用HotpotQA、2WikiMultiHopQA、Musique和Bamboogle四个多跳数据集,前两个为域内数据集,后两个为域外数据集,评估指标为F1-score和LLM-as-Judge(LasJ)。对比基线包括Naive Generation、Standard RAG、SuRe、Selective-Context、Adaptive-RAG、CRPlanner、RAG-CoT方法和RAG-RL方法等,验证模型在不同场景下的性能。

实验洞察

1. 性能优势: 在整体测试集上,R1-Searcher++相比最佳基于RL的方法R1-Searcher提升4.3%;在HotpotQA上,LasJ指标达64.2%,优于R1-Searcher的62.2%;在Bamboogle上,LasJ指标为59.2%,显著高于其他基线。

2. 效率突破: 相比基于RL的方法,检索次数大幅减少,平均检索次数比R1-Searcher减少30.0%,比Search-R1减少52.9%,有效降低推理成本。

3. 消融研究: 各关键组件均对模型性能有重要贡献。移除SFT冷启动阶段,Bamboogle上LasJ指标从59.2%降至56.8%;移除RL阶段,性能大幅下降,F1指标从60.8%降至47.4%;移除组奖励或记忆机制,性能也有不同程度下降,如移除组奖励,Musique上LasJ指标从32.8%降至32.4%,验证了各模块的有效性。


http://www.hkcw.cn/article/LaAHLEKeEk.shtml

相关文章

用 Vue 做一个轻量离线的“待办清单 + 情绪打卡”小工具

网罗开发 (小红书、快手、视频号同名) 大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等…

6-2 MySQL 数据结构选择的合理性

6-2 MySQL 数据结构选择的合理性 文章目录 6-2 MySQL 数据结构选择的合理性1. 全表查询2. Hash 查询3. 二叉搜索树4. AVL 树5. B-Tree6.B Tree7. R树8. 小结附录:算法的时间复杂度9. 最后: 这篇文章是我蹲在《尚硅谷》-康师傅博主家的 WiFi 上(不是)&am…

红黑树与红黑树的插入——用C++实现

一、红黑树简介 红黑树是二叉搜索树的一种,区别于二叉平衡树,红黑树的平衡并不以平衡因子为依据进行平衡的调整而是以五条规则对红黑树进行定义,从而达成树的最长路径最多是树的最短路径的两倍长。以下是红黑树的五条规则: 节点非…

线程相关面试题

提示:线程相关面试题,持续更新中 文章目录 一、Java线程池1、Java线程池有哪些核心参数,分别有什么的作用?2、线程池有哪些拒绝策略?3、说一说线程池的执行流程?4、线程池核心线程数怎么设置呢?4、Java线程…

Axure设计案例:滑动拼图解锁

设计以直观易懂的操作方式为核心,只需通过简单的滑动动作,将拼图块精准移动至指定位置,即可完成解锁。这种操作模式既符合用户的日常操作习惯,在视觉呈现上,我们精心设计拼图图案,融入生动有趣的元素&#…

报表/报告组件(二)-实例与实现解释

上篇《报表/报告组件(一)-指标/属性组件设计》介绍了组件核心指标/属性设计,本文以实例介绍各个特性的实现和效果,实例是多个报告融合,显示所有的特性。 设计 指标/属性组件是报告/报表关键部分,上篇已介绍过,本节回顾…

django入门-orm数据库操作

一:下载数据库依赖项mysqlclient pip install mysqlclient 二:django配置文件配置数据库链接 路径:mysite2\mysite2\settings.py DATABASES {default: {ENGINE: django.db.backends.mysql,NAME: data, # 数据库名称USER: root, …

开疆智能Profinet转Profibus网关连接CMDF5-8ADe分布式IO配置案例

本案例是客户通过开疆智能研发的Profinet转Profibus网关将PLC的Profinet协议数据转换成IO使用的Profibus协议,操作步骤如下。 配置过程: Profinet一侧设置 1. 打开西门子组态软件进行组态,导入网关在Profinet一侧的GSD文件。 2. 新建项目并…

【RabbitMQ】- Channel和Delivery Tag机制

在 RabbitMQ 的消费者代码中,Channel 和 tag 参数的存在是为了实现消息确认机制(Acknowledgment)和精细化的消息控制。 Channel 参数 作用 Channel 是 AMQP 协议的核心操作接口,通过它可以直接与 RabbitMQ 交互: 手…

详解代理型RAG与MCP服务器集成

检索增强型生成(RAG)将语言模型与外部知识检索相结合,让模型的回答基于最新的事实,而不仅仅是其训练数据呢。 RAG(高级别) 在 RAG 流程中,用户查询用于搜索知识库(通常通过向量数据库中的嵌入来实现),并将检索到的最相关文档“增强”到模型的提示中,以帮助生成事实…

Keil 中因未引入源文件导致的函数调用与索引失败:从找不到定义到全局搜索无效

我在头文件中声明函数,源文件有定义,在有引入头文件的情况下调用的时候却找不到函数,头文件点击函数跳转不到源文件,全局搜索函数时找不到源文件的这个函数,最后是因为没有引入这个源文件 一、我在MQTT_Client_Task中使…

vue3学习

p3 创建vue3工程 1.创建命令 npm create vuelatest p4 编写APP组件 入口文件是index.html Vite 项目中, index.htm 是项目的入口文件,在项目最外层 加载index.html后,Vite解析 script typemoduleSrCXXX 指向的javascript Vue 中是通过 cr…

Vue3 + Vite:我的 Qiankun 微前端主子应用实践指南

前言 实践文章指南 vue微前端qiankun框架学习到项目实战,基座登录动态菜单及权限控制>>>>实战指南:Vue 2基座 Vue 3 Vite TypeScript微前端架构实现动态菜单与登录共享>>>>构建安全的Vue前后端分离架构:利用长Token与短Tok…

CloudFront 加速详解:AWS CDN 怎么用?

让全球访问更快速稳定,深入解读 AWS 的内容分发网络 在上一篇中,我们介绍了 Amazon S3 对象存储,它非常适合托管静态资源,比如图片、视频、网页等。但你可能遇到过这样的问题: “我把网站静态文件部署到了 S3&#xf…

嵌入式SDK技术EasyRTC音视频实时通话助力即时通信社交/教育等多场景创新应用

一、引言​ 在数字化时代,即时通信已成为人们生活和工作中不可或缺的部分。音视频功能作为即时通信的核心,能实现更加直观、高效的信息传递。EasyRTC作为一款强大的实时通信框架,具备诸多优势,为即时通信的音视频应用提供了优质解…

Rust 学习笔记:关于 Cargo 的练习题

Rust 学习笔记:关于 Cargo 的练习题 Rust 学习笔记:关于 Cargo 的练习题问题一问题二问题三问题四问题五问题六问题七 Rust 学习笔记:关于 Cargo 的练习题 参考视频: https://www.bilibili.com/video/BV1xjAaeAEUzhttps://www.b…

【时时三省】(C语言基础)数组作为函数参数

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 调用有参函数时,需要提供实参。例如sin ( x ),sqrt ( 2,0 ),max ( a,b )等。实参可以是常量、变量或表达式。数组元素的作用与变量…

基于Android的一周穿搭APP的设计与实现 _springboot+vue

开发语言:Java框架:springboot AndroidJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7数据库工具:Navicat12开发软件:eclipse/myeclipse/ideaMaven包:Maven3.6 系统展示 APP登录 A…

【开源工具】超全Emoji工具箱开发实战:Python+PyQt5打造跨平台表情管理神器

🌟 超全Emoji工具箱开发实战:PythonPyQt5打造跨平台表情管理神器 🌈 个人主页:创客白泽 - CSDN博客 🔥 系列专栏:🐍《Python开源项目实战》 💡 热爱不止于代码,热情源自每…