VeriFree:无需Verifier的通用RL框架

article/2025/8/3 23:24:48

文章目录

  • 前言
  • 1. 研究背景与挑战
    • 1.1 传统强化学习框架(RLVR)的领域局限性
    • 1.2 引入LLM作为验证器的新挑战
    • 1.3 研究目标的提出
  • 2. VeriFree方法核心原理
    • 2.1 问题定义与形式化建模
    • 2.2 核心思想:隐式验证与概率最大化
    • 2.3 训练技术细节
  • 3. 实验
  • 4. 总结

前言

在这里插入图片描述
前几天在在 arxiv 上看到一篇比较有意思的文章,只不过今天才有时间解读。这篇文章提出了一种无需 Verifier(验证器)的 RL 框架。最近无监督 RL 相关研究较为火热,这里的无监督 RL 通常指不需要人工标注答案、仅依赖模型自身生成数据或潜在奖励信号的 RL 范式,与 Deepseek 的 R1-zero 这类依赖明确验证信号的方法有着本质区别。

这篇文章与严格意义上的无监督 RL不太一样,并没有抛弃标准答案,而是抛弃了传统验证器。以 Deepseek 的 R1-zero 为代表的传统 RL 方法,模型生成答案后需要通过验证器比较预测答案与真实答案,计算 reward 并强化模型生成高 reward 的回复(即 RLHF 流程)。但在现实中,许多领域无法像数学等场景一样通过简单规则验证答案,因此只能借助 LLM 作为验证器,这不仅要求验证 LLM 具备更强的推理能力,还会带来额外资源消耗,实施难度较大。

对此,本文提出了一种简洁的解决思路:首先,给定问题时模型生成推理轨迹和预测答案;随后仅提取推理轨迹,将其与数据集中的参考答案拼接后送入模型进行前向计算以获取概率;接着,以模型在给定问题和推理轨迹的条件下生成参考答案的概率作为奖励信号;最后,在具体优化中引入 RLOO 基线降低梯度方差,同时最大化模型基于输入生成推理轨迹的概率,以及基于输入和推理轨迹生成标准答案的概率。

上述过程与传统 RL 相比,无需验证器比较标准答案和预测答案,但增加了一次前向传播过程。正如作者在原文中所述,由于此次前向计算仅用于生成概率,不涉及自回归解码,且无需存储中间状态进行反向传播,因此增加的资源消耗在实际应用中是可接受的。

1. 研究背景与挑战

1.1 传统强化学习框架(RLVR)的领域局限性

核心问题:依赖规则化答案验证,仅适用于少数可形式化验证的领域。

  • 适用场景有限:在数学(如方程求解)和代码(如程序执行结果验证)中,可通过规则或测试用例直接验证答案正确性。例如,DeepSeek-R1-Zero通过规则验证数学答案的精确匹配,实现推理能力提升。但在化学(如分子反应机制)、医疗(如疾病诊断)、法律(如条文适用解读)等领域,答案需依赖语义理解或领域专家判断,无法通过简单规则验证。
  • 本质瓶颈:通用推理任务的答案常具有多解性(如经济政策分析的不同模型预测)或语义模糊性(如哲学问题的阐释),规则化验证器难以定义“正确答案”的边界。

1.2 引入LLM作为验证器的新挑战

一般来讲,可以使用模型验证器(如另一LLM)替代规则验证,但引发三大问题:

  • 强依赖高性能验证器模型:验证器需具备比主模型更强的推理能力,否则易导致“错误验证”。例如,若用小模型验证大模型的复杂推理,可能因自身能力不足给出错误奖励信号。 此外,实际应用中需额外训练或获取高性能验证器(如Qwen2.5-Math-1.5B),增加研发成本和资源门槛。
  • Reward Hacking 风险:主模型可能通过拟合验证器的表面偏好(而非真实推理逻辑)获取奖励。例如,生成与答案无关但格式合规的推理轨迹,或利用验证器的微小漏洞(如对语义等价答案的误判)。这与RLHF中“奖励模型过拟合”问题类似,导致模型生成内容偏离真实需求。
  • 计算与内存开销显著增加:训练时需同时运行主模型和验证器,内存占用翻倍。例如,在8B模型训练中,额外存储验证器参数会导致显存不足,需更昂贵的硬件支持。

1.3 研究目标的提出

VeriFree的目标:

  • 绕过显式验证:通过最大化生成参考答案的概率,将验证信号隐式编码于模型自身的概率分布中,而非依赖外部规则或模型。
  • 统一训练框架:在单一模型中联合优化推理轨迹生成与答案匹配度,实现“端到端”的通用推理能力提升。
  • 降低门槛与成本:无需额外验证器,适配中小规模模型和资源受限场景。

2. VeriFree方法核心原理

2.1 问题定义与形式化建模

(1)通用推理任务的数学描述
给定输入问题 x x x,模型需生成推理轨迹 z z z和答案 y y y。传统强化学习框架(RLVR)的目标是最大化期望奖励 E z , y ∼ π θ [ R ( x , z , y ) ] \mathbb{E}_{z,y \sim \pi_{\theta}} [R(x,z,y)] Ez,yπθ[R(x,z,y)],其中 R R R依赖验证器判断答案是否正确(如数学领域的规则验证)。但在通用推理领域,验证器难以定义,因此VeriFree重新定义目标,直接最大化生成参考答案 y ∗ y^* y的概率,即:
L VeriFree = E z ∼ π θ ( z ∣ x ) [ log ⁡ p θ ( y ∗ ∣ x , z ) ] L_{\text{VeriFree}} = \mathbb{E}_{z \sim \pi_{\theta}(z|x)} \left[ \log p_{\theta}(y^* | x, z) \right] LVeriFree=Ezπθ(zx)[logpθ(yx,z)]

其中 y ∗ y^* y是人工标注的参考答案, p θ ( y ∗ ∣ x , z ) p_{\theta}(y^* | x, z) pθ(yx,z)表示模型在给定问题 x x x和推理轨迹 z z z时生成 y ∗ y^* y的概率。

(2)多答案场景的扩展
当存在多个等价参考答案 Y ∗ = { y 1 ∗ , y 2 ∗ , … , y k ∗ } Y^* = \{y_1^*, y_2^*, \dots, y_k^*\} Y={y1,y2,,yk}时,目标函数扩展为加权求和:
L VeriFree = E z ∼ π θ ( z ∣ x ) [ ∑ y ∗ ∈ Y ∗ w ( y ∗ ) ⋅ log ⁡ p θ ( y ∗ ∣ x , z ) ] L_{\text{VeriFree}} = \mathbb{E}_{z \sim \pi_{\theta}(z|x)} \left[ \sum_{y^* \in Y^*} w(y^*) \cdot \log p_{\theta}(y^* | x, z) \right] LVeriFree=Ezπθ(zx) yYw(y)logpθ(yx,z)

其中 w ( y ∗ ) w(y^*) w(y)是答案权重(如根据专家评分或出现频率设定),解决语义等价答案的概率分配问题。

2.2 核心思想:隐式验证与概率最大化

在这里插入图片描述
主要步骤概括如下:

  • 思维链生成:将prompt输入到模型,得到推理轨迹和预测答案
  • 思维链与答案的拼接:使用特殊标记(如<answer>)将推理轨迹 z z z和参考答案 y ∗ y^* y拼接,形成输入序列 [ x , z , < a n s w e r > , y ∗ ] [x, z, <answer>, y^*] [x,z,<answer>,y],确保分词一致性。
  • 概率计算:将上述拼接的Prompt扔给模型,得到输出,然后计从 “答案起始标记” 开始,依次生成 y ∗ y^* y中每个 token 的概率。
  • Reward的设计:直接使用 log ⁡ p θ ( y ∗ ∣ x , z ) \log p_{\theta}(y^* | x, z) logpθ(yx,z)作为奖励信号,同时作为策略梯度的权重。该奖励反映模型对答案的“自信度”,避免验证器的主观判断。
  • 模型优化:同时优化推理轨迹生成策略 π θ ( z ∣ x ) \pi_{\theta}(z|x) πθ(zx)和答案生成能力 π θ ( y ∗ ∣ x , z ) \pi_{\theta}(y^* | x, z) πθ(yx,z)

2.3 训练技术细节

(1)方差减少技术

  • RLOO基线:对每个样本 z ( i ) z^{(i)} z(i),计算除自身外其他样本的平均奖励作为基线,用以减少梯度估计的方差:
    b ( z ( i ) ) = 1 k − 1 ∑ j ≠ i log ⁡ p θ ( y ∗ ∣ x , z ( j ) ) b(z^{(i)}) = \frac{1}{k-1} \sum_{j \neq i} \log p_{\theta}(y^* | x, z^{(j)}) b(z(i))=k11j=ilogpθ(yx,z(j))
  • 响应长度归一化:引入 len ( z ) − 1 \text{len}(z)^{-1} len(z)1对奖励进行归一化,避免模型生成过长的无效推理轨迹。

(2)策略优化算法
采用PPO(Proximal Policy Optimization)框架,结合裁剪操作和价值函数估计,确保训练稳定性。具体地,优化目标为:
L PPO = E z ∼ π θ [ min ⁡ ( r θ ( z ) ⋅ A VeriFree , clip ( r θ ( z ) , 1 − ϵ , 1 + ϵ ) ⋅ A VeriFree ) ] L_{\text{PPO}} = \mathbb{E}_{z \sim \pi_{\theta}} \left[ \min \left( r_{\theta}(z) \cdot A_{\text{VeriFree}}, \text{clip}(r_{\theta}(z), 1-\epsilon, 1+\epsilon) \cdot A_{\text{VeriFree}} \right) \right] LPPO=Ezπθ[min(rθ(z)AVeriFree,clip(rθ(z),1ϵ,1+ϵ)AVeriFree)]
其中 r θ ( z ) r_{\theta}(z) rθ(z)是新旧策略的比率。

3. 实验

(1)基准测试设置

模型:Qwen3系列(1.7B/4B/8B),直接微调基础模型。
数据集:WebData(6.1万样本,覆盖多领域),评估基准包括MMLU-Pro、SuperGPQA、GPQA及数学基准(MATH-500、GSM8K等)。

(2)主要结果
通用推理性能:
在这里插入图片描述
在这里插入图片描述

从上面表格可以看出,VeriFree 显著超越基础模型,且在多数领域优于验证器基线和指令模型,证明无验证器方法的有效性。此外,模型回复长度有明显上升,表明该模型探索了更长的推理痕迹,生成了更长的思维链以获得更准确的答案。

效率对比:
在这里插入图片描述
训练步数更少,收敛更快,内存占用降低。

(3)消融研究

  • 移除 RLOO 后,MMLU-Pro 准确率下降3%左右,说明方差减少技术对稳定性的关键作用。
  • 使用文本分割(如按 “” 拆分)导致分词不一致,准确率有所下降;VeriFree 的 “<answer” 标记策略确保 token 对齐,稳定性显著提升。

4. 总结

背景:传统强化学习(RLVR)依赖规则或模型验证器提升大语言模型(LLM)推理能力,但仅适用于数学、代码等可验证领域,无法扩展至化学、医疗等通用推理场景,且引入LLM验证器会导致依赖强模型、奖励篡改风险和高计算成本。

解决思路:本文提出VeriFree(无验证器强化学习方法),绕过显式验证,直接通过强化学习最大化模型生成参考答案的概率。 首先,给定问题时,模型仅生成推理轨迹,随后将其与数据集中的参考答案拼接,形成完整输入序列;接着,通过计算(即模型在问题和推理轨迹条件下生成的概率)作为连续奖励信号,同时将该概率作为监督训练中参考答案的加权项,实现策略梯度优化与有监督学习的结合;此外,引入RLOO基线降低梯度方差,通过排除当前样本的平均奖励构造优势函数。

实验效果:在MMLU-Pro、SuperGPQA等通用推理基准中,VeriFree使Qwen3系列模型准确率提升12%-40%,超越基于验证器的基线方法,且训练效率更高(步数减少、内存占用降低)。即使未训练数学数据,其推理能力仍能迁移至数学任务,验证了方法的泛化性。


http://www.hkcw.cn/article/KfkPrpRpdM.shtml

相关文章

uniapp uni-id 如果是正式项目,需自行实现发送邮件的相关功能

(3) 使用云对象sendEmailCode 发送邮箱验证码&#xff0c;报错送邮箱验证码失败 Error: 已启动测试模式&#xff0c;直接使用&#xff1a;123456作为邮箱验证码即可。 如果是正式项目&#xff0c;需自行实现发送邮件的相关功能 - DCloud问答 uni-id 没有实现邮箱验证码逻辑&am…

HiEV独家 | 整合智能化战线,奇瑞辅助驾驶驶向何方?

作者 |德新 编辑 |王博 组织调整是战略变革的映射&#xff0c;而战略变革最终要在产品上体现。 5月30日&#xff0c;奇瑞汽车官宣整合旗下雄狮科技、大卓智能与研发总院相关业务&#xff0c;成立「智能化中心」。智能化中心下设有智能座舱、智能辅助驾驶、电子电气架构等子中…

什么是软件需求可视化?如何实际运用?

一、什么是软件需求可视化&#xff1f; 将软件需求可视化是一个有助于团队成员更好地理解项目需求、促进沟通和协作的重要过程。以下是几种常见的方法和技术&#xff0c;可以帮助你有效地实现这一目标&#xff1a; 用户故事地图&#xff1a;这是一种通过创建一个从用户角度出发…

腾讯:强化学习提高LLM机器翻译

&#x1f4d6;标题&#xff1a;TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment &#x1f310;来源&#xff1a;arXiv, 2505.21172 &#x1f31f;摘要 最近&#xff0c;像DeepSeek-R1这样的深度推理大型语言模型&#xff08;LLM&…

C++ IO流

目录 一、C语言的输入与输出 二、流 三、CIO流 3.1 C标准IO流 3.2 C文件IO流 3.3 stringstream字符串流 一、C语言的输入与输出 在 C 语言中&#xff0c;最常用的输入输出函数是 scanf() 和 printf()。它们分别用于从标准输入读取数据&#xff0c;以及将数据输出到标准输出…

linux文件管理(补充)

1、查看文件命令 1.1 cat 用于连接文件并打印到标准输出设备上&#xff0c;它的主要作用是用于查看和连接文件。 用法&#xff1a; cat 参数 文件名 参数&#xff1a; -n&#xff1a;显示行号&#xff0c;会在输出的每一行前加上行号。 -b&#xff1a;显示行号&#xff0c;…

Relational Algebra(数据库关系代数)

目录 What is an “Algebra” What is Relational Algebra? Core Relational Algebra Selection Projection Extended Projection Product&#xff08;笛卡尔积&#xff09; Theta-Join Natural Join Renaming Building Complex Expressions Sequences of Assignm…

操作系统:进程管理(王道+计算机操作系统)

第二章 进程与线程 2.1进程的概念、组成与特征 2.1.1 进程与程序的区别 ​ 1.程序&#xff1a;静态的&#xff0c;就是放在磁盘里的可执行文件&#xff0c;如&#xff1a;QQ.exe。 ​ 2.进程&#xff1a;动态的&#xff0c;是程序的一次执行过程&#xff0c;如&#xff1a;…

浅谈简历制作的四点注意事项

如大家所了解的&#xff0c;一份工作&#xff0c;往往是从制作一份简历开始。 对于新人来说&#xff0c;简历制作的注意事项&#xff0c;你又了解多少呢&#xff1f;下面一起来看看吧&#xff01; 简历字数&#xff1a;一封合格的简历字数大概在 350 词 – 650 词之间&#xf…

软考-数据库系统工程师-程序设计语言知识要点

小房学堂&#xff0c;程序设计语言知识要点 汇编、编译、解释系统的基础知识 计算机只能理解由0-1组成的指令&#xff0c;就像一个只会本国语言的人&#xff0c;他听不懂其他国家的语言 而程序员编程使用的是低级语言&#xff08;汇编语言&#xff09;或者高级语言如C、C、Jav…

6级翻译学习

找到一个中文句子先看中文句子的主谓宾&#xff0c;主系表 不会写的词不要写&#xff0c;不会影响得分&#xff0c;只要其他地方写对

【Rhino】【Python】adjust repeated column marks

#codingutf-8 import rhinoscriptsyntax as rs import re import System.Guiddef process_column_marks():# 获取目标图层中的所有文本对象layer_name "03 STR. DRAFT MEMBER::COLUMN MARK"text_objects rs.ObjectsByLayer(layer_name, True)if not text_objects o…

Goreplay最新版本的安装和简单使用

一&#xff1a;概述 Gor 是一个开源工具&#xff0c;用于捕获实时 HTTP 流量并将其重放到测试环境中&#xff0c;以便使用真实数据持续测试您的系统。它可用于提高对代码部署、配置更改和基础设施更改的信心。简单易用。 项目地址&#xff1a;buger/goreplay: GoReplay is an …

YOLOv5 环境配置指南

系统要求 Windows/Linux/MacOSNVIDIA GPU (推荐) 或 CPUPython 3.8CUDA 11.8 (如果使用 GPU) 安装步骤 1. 安装 Conda 如果还没有安装 Conda&#xff0c;请先从官网下载并安装 Miniconda。 2. 创建虚拟环境 # 创建名为 yolov5 的新环境&#xff0c;使用 Python 3.8 conda…

【算法应用】虚拟力算法VFA用于WSN覆盖,无人机网络覆盖问题

目录 1.虚拟力算法VFA2.WSN覆盖&无人机覆盖应用3.参考文献4.代码获取5.读者交流 1.虚拟力算法VFA 虚拟势场&#xff08;Virtual Potential Field&#xff09;最早因解决机器人路径规划及避障问题而被提出。它假设待优化个体会根据某种关系与周围的环境或其他个体产生力的作…

简历制作要精而不简

不得不说&#xff0c;不管是春招&#xff0c;还是秋招&#xff0c;我们在求职时&#xff0c;第一步便是制作一份简历。不得不承认&#xff0c;好的简历&#xff0c;就像一块敲门砖&#xff0c;能让面试官眼前一亮&#xff0c;让应聘成功的概率增添一分。 对于一个初次求职者来…

数据库管理与高可用-MySQL全量,增量备份与恢复

目录 #1.1MySQL数据库备份概述 1.1.1数据备份的重要性 1.1.2数据库备份类型 1.1.3常见的备份方法 #2.1数据库完全备份操作 2.1.1物理冷备份与恢复 2.1.2mysqldump备份与恢复 2.1.3MySQL增量备份与恢复 #3.1制定企业备份策略的思路 #4.1扩展&#xff1a;MySQL的GTID 4.1.1My…

论文解读 - 统一的多模态理解和生成模型综述(上)

一、 简要介绍 近年来&#xff0c;多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功&#xff0c;这两个领域却独立发展&#xff0c;形成了独特的架构范式&#xff1a;基于自回归的架构主导了多模态理解&#xff0c;而基于扩散的模型则成为图像生成的基石…

核心机制:TCP 断开连接(四次挥手)

断开连接的四次挥手,可能是客户端主动发起的,也可能是服务端主动发起的 而三次握手,一定是客户端先发起的(倒果为因)(先发起的一方定义为客户端) 1.客户端告诉服务器,我要和你断开连接,请你把我删了 2.服务器回应"收到" 3.服务器告诉客户端,我也要和你断开连接,请…

WEBSTORM前端 —— 第3章:移动 Web —— 第3节:移动适配

目录 一、移动Web基础 1.谷歌模拟器 2.屏幕分辨率 3.视口 4.二倍图 二、适配方案 三、rem 适配方案 四、less 1.less – 简介 2.less – 注释 3.less – 运算 4.less – 嵌套 5.less – 变量 6.less – 导入 7.less – 导出 8.less – 禁止导出 五…