SPA-RL:通过Stepwise Progress Attribution训练LLM智能体

article/2025/7/30 0:21:34

SPA-RL:通过Stepwise Progress Attribution训练LLM智能体

在大语言模型(LLM)驱动智能体发展的浪潮中,强化学习(RL)面临着延迟奖励这一关键挑战。本文提出的SPA-RL框架,通过创新的分步进度归因机制,将最终奖励分解为细粒度的中间信号,为LLM智能体训练带来了突破性进展,在多个基准任务上刷新了性能上限,一起来探索这一前沿成果!

论文标题
SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution

来源
arXiv:2505.20732v1 [cs.CL] + https://arxiv.org/abs/2505.20732

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLM)作为智能体在网页导航、具身交互等多步规划任务中展现出强大能力,强化学习(RL)因序贯决策优化特性成为训练关键技术。然而,这类任务普遍存在延迟奖励问题:仅任务完成时提供最终反馈,导致早期动作难以获得有效指导

现有过程监督方法(如 StepAgent、PRM4A)虽尝试引入中间信号,但多局限于局部动作优化,忽视与长期目标的一致性;传统 PPO 算法在长周期任务中,因优势函数指数衰减导致梯度无法有效传播,进一步加剧了训练困境。如何为 LLM 智能体设计兼具全局目标对齐与细粒度指导的中间奖励信号,成为突破 RL 训练瓶颈的核心挑战。

研究问题

1. 延迟奖励分配难题: 传统RL中仅任务完成时获得最终奖励,难以将反馈有效传递给早期步骤,导致智能体无法明确各动作对目标的贡献。

2. 局部优化局限性: 现有过程监督方法(如StepAgent、PRM4A)多关注局部动作优化,忽视与长期目标的一致性,易陷入次优解。

3. PPO算法在长周期任务中的失效: 稀疏奖励下PPO的优势函数因指数衰减无法有效传播梯度,尤其在超过20步的长轨迹中性能急剧下降。

主要贡献

1. 提出SPA框架: 首创分步进度归因(Stepwise Progress Attribution, SPA)机制,将最终奖励分解为各步骤的进度贡献,通过进度估计器实现奖励再分配,确保中间信号与全局目标一致。

2. 融合进度与执行信号: 设计融合奖励函数 r t f u s e d = α c t + β g t r_t^{fused} = \alpha c_t + \beta g_t rtfused=αct+βgt,其中 c t c_t ct为步骤贡献分数, g t g_t gt为动作可执行性信号,兼顾任务进度与环境适配性。

3. 跨基准性能突破: 在WebShop、ALFWorld、VirtualHome三大环境中,SPA-RL平均提升成功率2.5%、grounding准确率1.9%,显著优于StepAgent、RAGEN等SOTA方法。

方法论精要

1. 核心框架流程

行为克隆(BC)预训练: 通过监督微调使LLM智能体获得基础任务规划能力,采用ReAct风格的思维-动作对格式。

进度估计器训练: 利用MLP从LLM隐藏层提取特征,预测每步动作对任务完成的贡献分数 c ^ t \hat{c}_t c^t,通过最小化 L P E = 1 ∣ D ∣ ∗ M ∑ ( R ^ − R ) 2 \mathcal{L}_{PE} = \frac{1}{|\mathcal{D}|*M}\sum(\hat{R} - R)^2 LPE=DM1(R^R)2确保累计贡献匹配最终奖励。

RL优化: 将融合奖励 r t f u s e d r_t^{fused} rtfused接入PPO算法,替代稀疏终端奖励,通过GAE计算优势函数 A ^ t f u s e d \hat{A}_t^{fused} A^tfused

2. 关键参数设计

进度估计器采用轻量级MLP,接入预训练LLM(Llama-3.2-3B-Instruct)的最后隐藏层。

融合奖励权重 α = 1 \alpha=1 α=1 β = 0.5 \beta=0.5 β=0.5,平衡进度贡献与执行可行性。

探索阶段设置M=10次rollout step,解码温度0.7以覆盖多样轨迹。

3. 创新性技术组合

全局-局部联合优化: 进度估计器从全局任务完成视角分解奖励,同时通过ground truth信号 g t g_t gt约束局部动作可行性。

无监督探索策略: 基于基础智能体 π b a s e \pi_{base} πbase进行无示范rollout,构建探索数据集 D e x p l o r e D_{explore} Dexplore,避免手动设计探索方案的局限性。

4. 实验验证逻辑

数据集:WebShop(网页导航)、ALFWorld(家庭任务)、VirtualHome(具身交互),覆盖不同复杂度的长周期任务。

基线方法:包括SFT、PPO、StepAgent、RAGEN、PRM4A等,对比监督学习、传统RL及过程监督方法。

实验洞察

1. 性能优势

  • ALFWorld:在未见任务中成功率达79.1%(StepAgent为75.4%),grounding准确率93.7%,其中PICK任务提升至95.8%。
  • WebShop:成功率64.1%,超越RAGEN(63%)。
  • VirtualHome:长周期任务成功率53.4%,grounding准确率81.6%,均为SOTA。

2. 效率与长周期适应性

  • 在25-29步的长轨迹任务中,SPA-RL相较PPO提升25%,证明其对长周期任务的优化能力。
  • 采用LoRA进行参数高效微调,训练效率提升3倍,显存占用降低40%。

3. 消融研究

  • 无ground truth信号:成功率降至77.6%,证明 g t g_t gt对动作执行有效性的关键作用。
  • 无分步进度:grounding准确率提升至94.2%,但成功率下降至77.6%,说明进度信号对全局目标对齐的必要性。
  • 随机/平均奖励对比:随机中间奖励使成功率低于PPO基线,验证进度估计器的有效性。

分析与讨论

1. 进度估计器有效性验证

在ALFWorld环境中对比五种奖励机制发现,SPA-RL通过进度估计器生成的中间奖励显著优于随机分配(Random)、平均分配(Mean)等启发式策略。其中"MC"(蒙特卡洛估计)作为强基线,成功率仅77.6%,而SPA-RL达到79.1%,证明进度估计器能有效捕捉各步骤对任务完成的真实贡献,避免了传统方法中奖励信号与实际进度脱节的问题。

2. 长周期任务适应性分析

通过划分不同步骤区间评估发现,SPA-RL在25-29步的长轨迹任务中相较PPO提升25%,而在4步以内的短任务中优势不显著。这表明其核心价值在于通过分步奖励归因解决长周期任务中的信用分配难题,尤其适合需要多步协同的复杂场景,而短任务中终端奖励已足够指导优化。

3. 信用分配机制对比

从信用分配维度分析,现有方法中轨迹级分配(如GRPO)因粒度粗糙性能普遍低于73%,而SPA-RL采用的令牌级分配通过奖励再分配实现全局目标对齐,成功率达79.1%。研究还指出,尽管令牌级方法计算复杂度较高,但相比局部优化的过程监督方法,其在长期目标一致性上具有不可替代的优势,为未来RL算法设计提供了"细粒度分配+全局约束"的新方向。


http://www.hkcw.cn/article/gTPoJOZRmx.shtml

相关文章

基于 Zynq 平台的 EtherCAT 主站的软硬件协同设计

摘要: 针对工业自动化对控制能力和强实时性的需求,提出了一种基于 FPGA 的改进型 EtherCAT 硬件主站方案 。 该方案利用 Zynq-7000 平台,在 PL 端实现 FPGA 协议栈,以保证核心功能的高效执 行 。 基于 AXI4 总线设计…

【IC】BSIM-CMG:用于高级电路设计的标准FinFET紧凑型模型

摘要 这项工作提出了新的紧凑型模型,这些模型捕捉了工业FinFET中呈现的高级物理效应。所提出的模型被引入到行业标准紧凑型模型BSIM-CMG中。核心模型被更新为新的统一FinFET模型,该模型计算具有复杂鳍片横截面的晶体管的电荷和电流。此外,来…

BFD工作原理(双向转发检测)

BFD的工作原理 BFD 会在两台网络设备之间建立会话,并通过周期性地交换 BFD 控制报文来检测路径的连通性。如果在检测时间内没有收到对方的报文,则视为链路故障,是依赖于路由协议来发现邻居的 故障检测 故障检测时间 协同接收间隔 * 检测倍数…

【JNI】JNI环境搭建

1 前言 JNI (Java Native Interface) 是 JDK 提供的一种机制,用于实现 Java 代码与其他语言(主要是 C 和 C)编写的本地代码之间的交互。 JNI 接口详见 JDK 安装目录中的 include/jni.h 文件,Android NDK 对 JDK 的 JNI 进行了扩展…

利用IEEE 802.15.4z-IR UWB系统进行手势检测

本文介绍了一种符合 IEEE 802.15.4z 标准的脉冲无线电超宽带 (IR-UWB) 手势检测雷达系统。该系统可检测车辆乘客座椅上的人员是否执行了 12 个预定义手势中的某一个。这些预定义手势包括各种手部动作,例如左右滑动或顺时针旋转手掌。为了进行手势检测,我…

STM标准库-GPIO输入

文章目录 一、GPIO输入按键简介传感器模块简介硬件电路 二、C语言C语言数据类型C语言宏定义C语言typedefC语言结构体C语言枚举 三、练习3.1按键控制LED3.1.1接线图3.1.2代码效果: 3.2光敏电阻控制蜂鸣器3.2.1接线图3.2.2代码效果: 一、GPIO输入 STM32 的…

HackMyVM-Jabita

信息搜集 主机发现 ┌──(kali㉿kali)-[~] └─$ nmap -sn 192.168.43.0/24 Starting Nmap 7.95 ( https://nmap.org ) at 2025-06-01 05:20 EDT Nmap scan report for 192.168.43.1 Host is up (0.020s latency). MAC Address: C6:45:66:05:91:88 (Unknown) Nmap scan repo…

桑托斯0-1博塔弗戈 内马尔染红 阿图尔制胜球

北京时间6月2日,巴西足球甲级联赛第11轮,桑托斯主场对阵博塔弗戈。比赛中,桑托斯的内马尔因累计两张黄牌被罚出场。博塔弗戈凭借雅伊尔-库尼亚的助攻,由阿图尔打入制胜一球,最终以1-0战胜桑托斯。比赛开始前,双方队长进行了挑边仪式。第5分钟,内马尔在禁区内投诉被对手拉…

英国军事战略转向全面“备战”

△英国首相府(资料图)当地时间6月1日,总台记者从英国首相府获得信息,英国政府将在2日发布新一轮《战略国防评估报告》的同时,宣布大幅扩建其核动力攻击型潜艇舰队,并加速推进军工产业现代化。此举被外界普遍解读为英国在地缘安全压力加剧背景下,全面进入“备战状态”。新…

Java虚拟机内存区域划分

Java虚拟机内存区域划分 Java虚拟机(JVM)的内存区域划分主要分为五个部分: 程序计数器:程序计数寄存器,给CPU使用本地方法栈:为JVM使用到的Native方法服务方法区:存储的是编译后的.class文件堆…

cursor升级至0.505,运行统计视频中的人数

帮助--检查更新,升级。 升级后,新建文本,另存选python格式保存后,右下角提示选择编译器,选择python后,自动安装ms python 3.11.9 一.查看pthon安装在哪, winr,输入cmd后, ctrlshiftenter三个…

《Pytorch深度学习实践》ch2-梯度下降算法

------B站《刘二大人》 1.Gradient Decent 局部最优,全局最优,非凸函数: 梯度下降算法公式: 2.Implementation import matplotlib.pyplot as plt# 数据集 x_data [1.0, 2.0, 3.0] y_data [2.0, 4.0, 6.0]# 权重 w 1.0# 模型…

LabVIEW多按键自动化检测系统

LabVIEW开发一套高精度按键力与行程自动化检测系统,针对传统检测设备自动化程度低、定位误差大等痛点,实现多按键产品的全流程自动化测试。系统集成 6 轴工业机器人、高精度传感器及实时数据处理模块,满足汽车电子、消费电子等领域对按键手感…

Chorme如何对于youtube视频进行画中画背景播放?

画中画可以让你小窗播放,然后浏览器放后台还可以做点别的事情。 B站直接可以选择小窗播放,游览器最小化就可以,但是youtube的小窗播放游览器一切换就不显示了。 其实是因为youtube的小窗播放不是真的小窗播放。要想真的实现需要在youtube视…

JDBC连不上mysql:Unable to load authentication plugin ‘caching_sha2_password‘.

最近为一个spring-boot项目下了mysql-9.3.0,结果因为mysql版本太新一直报错连不上。 错误如下: 2025-06-01 16:19:43.516 ERROR 22088 --- [http-nio-8080-exec-2] o.a.c.c.C.[.[.[/].[dispatcherServlet] : Servlet.service() for servlet [dispat…

C/C++ 面试复习笔记(3)

一.valgrind工具 参考: 内存检查工具valgrind介绍、安装与使用-CSDN博客https://blog.csdn.net/mijichui2153/article/details/85240349 二.C语言中如何实现一个线程池? 答案: 线程池是通过预先创建固定数量的线程来处理多个任务&#xf…

Spring框架核心知识深度解析

Spring框架核心知识深度解析 最近正在复习Java八股,所以会将一些热门的八股问题,结合ai与自身理解写成博客便于记忆 今天将对spring常见问题做出解析 一、IOC与AOP核心原理 1. IOC(控制反转)详解 核心思想:将对象…

【第四十七周】HippoRAG 2 复现与分析(一):环境部署与代码分析

目录 摘要Abstract安装依赖试运行HippoRAG 初始化文档索引QA运行脚本 总结 摘要 本周对HippoRAG 2系统进行核心功能测试,通过构建小型结构化文档库(如人物职业、童话事件、地理关系),验证其索引构建、动态增删、多轮检索问答及评…

【js逆向_AES】全国二手房指数数据爬取

目标:请求参数signcode,请求结果data。 网址:aHR0cDovL3d3dy5jY2hpbmRleC5jb20vSG9tZS9pbmRleA 查看载荷 查看响应数据 点击xhr,发现所有请求参数都是一个signCode,还是加密后的结果,对应结果中数据data也…

郑钦文社媒:人都应该有梦 刷新赛会最佳战绩

北京时间6月1日晚,在法网女单1/8决赛中,郑钦文战胜俄罗斯选手萨姆索诺娃,职业生涯首次跻身法网女单八强,刷新个人赛会最佳战绩。这也是中国选手时隔14年再次闯进法网八强。赛后,郑钦文在社交媒体上写道:“人都应该有梦,有梦就别怕痛,是一颗宝石就该闪烁。”她还祝所有的…