VeriFree：无需Verifier的通用RL框架-海口c网

文章目录

前言
1. 研究背景与挑战
- 1.1 传统强化学习框架（RLVR）的领域局限性
- 1.2 引入LLM作为验证器的新挑战
- 1.3 研究目标的提出
2. VeriFree方法核心原理
- 2.1 问题定义与形式化建模
- 2.2 核心思想：隐式验证与概率最大化
- 2.3 训练技术细节
3. 实验
4. 总结

前言

在这里插入图片描述
前几天在在 arxiv 上看到一篇比较有意思的文章，只不过今天才有时间解读。这篇文章提出了一种无需 Verifier（验证器）的 RL 框架。最近无监督 RL 相关研究较为火热，这里的无监督 RL 通常指不需要人工标注答案、仅依赖模型自身生成数据或潜在奖励信号的 RL 范式，与 Deepseek 的 R1-zero 这类依赖明确验证信号的方法有着本质区别。

这篇文章与严格意义上的无监督 RL不太一样，并没有抛弃标准答案，而是抛弃了传统验证器。以 Deepseek 的 R1-zero 为代表的传统 RL 方法，模型生成答案后需要通过验证器比较预测答案与真实答案，计算 reward 并强化模型生成高 reward 的回复（即 RLHF 流程）。但在现实中，许多领域无法像数学等场景一样通过简单规则验证答案，因此只能借助 LLM 作为验证器，这不仅要求验证 LLM 具备更强的推理能力，还会带来额外资源消耗，实施难度较大。

对此，本文提出了一种简洁的解决思路：首先，给定问题时模型生成推理轨迹和预测答案；随后仅提取推理轨迹，将其与数据集中的参考答案拼接后送入模型进行前向计算以获取概率；接着，以模型在给定问题和推理轨迹的条件下生成参考答案的概率作为奖励信号；最后，在具体优化中引入 RLOO 基线降低梯度方差，同时最大化模型基于输入生成推理轨迹的概率，以及基于输入和推理轨迹生成标准答案的概率。

上述过程与传统 RL 相比，无需验证器比较标准答案和预测答案，但增加了一次前向传播过程。正如作者在原文中所述，由于此次前向计算仅用于生成概率，不涉及自回归解码，且无需存储中间状态进行反向传播，因此增加的资源消耗在实际应用中是可接受的。

1. 研究背景与挑战

1.1 传统强化学习框架（RLVR）的领域局限性

核心问题：依赖规则化答案验证，仅适用于少数可形式化验证的领域。

适用场景有限：在数学（如方程求解）和代码（如程序执行结果验证）中，可通过规则或测试用例直接验证答案正确性。例如，DeepSeek-R1-Zero通过规则验证数学答案的精确匹配，实现推理能力提升。但在化学（如分子反应机制）、医疗（如疾病诊断）、法律（如条文适用解读）等领域，答案需依赖语义理解或领域专家判断，无法通过简单规则验证。
本质瓶颈：通用推理任务的答案常具有多解性（如经济政策分析的不同模型预测）或语义模糊性（如哲学问题的阐释），规则化验证器难以定义“正确答案”的边界。

1.2 引入LLM作为验证器的新挑战

一般来讲，可以使用模型验证器（如另一LLM）替代规则验证，但引发三大问题：

强依赖高性能验证器模型：验证器需具备比主模型更强的推理能力，否则易导致“错误验证”。例如，若用小模型验证大模型的复杂推理，可能因自身能力不足给出错误奖励信号。此外，实际应用中需额外训练或获取高性能验证器（如Qwen2.5-Math-1.5B），增加研发成本和资源门槛。
Reward Hacking 风险：主模型可能通过拟合验证器的表面偏好（而非真实推理逻辑）获取奖励。例如，生成与答案无关但格式合规的推理轨迹，或利用验证器的微小漏洞（如对语义等价答案的误判）。这与RLHF中“奖励模型过拟合”问题类似，导致模型生成内容偏离真实需求。
计算与内存开销显著增加：训练时需同时运行主模型和验证器，内存占用翻倍。例如，在8B模型训练中，额外存储验证器参数会导致显存不足，需更昂贵的硬件支持。

1.3 研究目标的提出

VeriFree的目标：

绕过显式验证：通过最大化生成参考答案的概率，将验证信号隐式编码于模型自身的概率分布中，而非依赖外部规则或模型。
统一训练框架：在单一模型中联合优化推理轨迹生成与答案匹配度，实现“端到端”的通用推理能力提升。
降低门槛与成本：无需额外验证器，适配中小规模模型和资源受限场景。

2. VeriFree方法核心原理

2.1 问题定义与形式化建模

（1）通用推理任务的数学描述
给定输入问题 $x$ ，模型需生成推理轨迹 $z$ 和答案 $y$ 。传统强化学习框架（RLVR）的目标是最大化期望奖励 $\mathbb{E}_{z,y \sim \pi_{\theta}} [R(x,z,y)]$ ，其中 $R$ 依赖验证器判断答案是否正确（如数学领域的规则验证）。但在通用推理领域，验证器难以定义，因此VeriFree重新定义目标，直接最大化生成参考答案 $y^*$ 的概率，即：
$L_{\text{VeriFree}} = \mathbb{E}_{z \sim \pi_{\theta}(z|x)} \left[ \log p_{\theta}(y^* | x, z) \right]$

其中 $y^*$ 是人工标注的参考答案， $p_{\theta}(y^* | x, z)$ 表示模型在给定问题 $x$ 和推理轨迹 $z$ 时生成 $y^*$ 的概率。

（2）多答案场景的扩展
当存在多个等价参考答案 $Y^* = \{y_1^*, y_2^*, \dots, y_k^*\}$ 时，目标函数扩展为加权求和：
$L_{\text{VeriFree}} = \mathbb{E}_{z \sim \pi_{\theta}(z|x)} \left[ \sum_{y^* \in Y^*} w(y^*) \cdot \log p_{\theta}(y^* | x, z) \right]$

其中 $w(y^*)$ 是答案权重（如根据专家评分或出现频率设定），解决语义等价答案的概率分配问题。

2.2 核心思想：隐式验证与概率最大化

在这里插入图片描述
主要步骤概括如下：

思维链生成：将prompt输入到模型，得到推理轨迹和预测答案
思维链与答案的拼接：使用特殊标记（如<answer>）将推理轨迹 $z$ 和参考答案 $y^*$ 拼接，形成输入序列 $x, z, <answer>, y^*]$ ，确保分词一致性。
概率计算：将上述拼接的Prompt扔给模型，得到输出，然后计从 “答案起始标记” 开始，依次生成 $y^*$ 中每个 token 的概率。
Reward的设计：直接使用 $\log p_{\theta}(y^* | x, z)$ 作为奖励信号，同时作为策略梯度的权重。该奖励反映模型对答案的“自信度”，避免验证器的主观判断。
模型优化：同时优化推理轨迹生成策略 $\pi_{\theta}(z|x)$ 和答案生成能力 $\pi_{\theta}(y^* | x, z)$ 。

2.3 训练技术细节

（1）方差减少技术

RLOO基线：对每个样本 $z^{(i)}$ ，计算除自身外其他样本的平均奖励作为基线，用以减少梯度估计的方差：
$b(z^{(i)}) = \frac{1}{k-1} \sum_{j \neq i} \log p_{\theta}(y^* | x, z^{(j)})$
响应长度归一化：引入 $\text{len}(z)^{-1}$ 对奖励进行归一化，避免模型生成过长的无效推理轨迹。

（2）策略优化算法
采用PPO（Proximal Policy Optimization）框架，结合裁剪操作和价值函数估计，确保训练稳定性。具体地，优化目标为：
$L_{\text{PPO}} = \mathbb{E}_{z \sim \pi_{\theta}} \left[ \min \left( r_{\theta}(z) \cdot A_{\text{VeriFree}}, \text{clip}(r_{\theta}(z), 1-\epsilon, 1+\epsilon) \cdot A_{\text{VeriFree}} \right) \right]$
其中 $r_{\theta}(z)$ 是新旧策略的比率。

3. 实验

（1）基准测试设置

模型：Qwen3系列（1.7B/4B/8B），直接微调基础模型。
数据集：WebData（6.1万样本，覆盖多领域），评估基准包括MMLU-Pro、SuperGPQA、GPQA及数学基准（MATH-500、GSM8K等）。

（2）主要结果
通用推理性能：
在这里插入图片描述

从上面表格可以看出，VeriFree 显著超越基础模型，且在多数领域优于验证器基线和指令模型，证明无验证器方法的有效性。此外，模型回复长度有明显上升，表明该模型探索了更长的推理痕迹，生成了更长的思维链以获得更准确的答案。

效率对比：
在这里插入图片描述
训练步数更少，收敛更快，内存占用降低。

（3）消融研究

移除 RLOO 后，MMLU-Pro 准确率下降3%左右，说明方差减少技术对稳定性的关键作用。
使用文本分割（如按 “” 拆分）导致分词不一致，准确率有所下降；VeriFree 的 “<answer” 标记策略确保 token 对齐，稳定性显著提升。

4. 总结

背景：传统强化学习（RLVR）依赖规则或模型验证器提升大语言模型（LLM）推理能力，但仅适用于数学、代码等可验证领域，无法扩展至化学、医疗等通用推理场景，且引入LLM验证器会导致依赖强模型、奖励篡改风险和高计算成本。

解决思路：本文提出VeriFree（无验证器强化学习方法），绕过显式验证，直接通过强化学习最大化模型生成参考答案的概率。首先，给定问题时，模型仅生成推理轨迹，随后将其与数据集中的参考答案拼接，形成完整输入序列；接着，通过计算（即模型在问题和推理轨迹条件下生成的概率）作为连续奖励信号，同时将该概率作为监督训练中参考答案的加权项，实现策略梯度优化与有监督学习的结合；此外，引入RLOO基线降低梯度方差，通过排除当前样本的平均奖励构造优势函数。

实验效果：在MMLU-Pro、SuperGPQA等通用推理基准中，VeriFree使Qwen3系列模型准确率提升12%-40%，超越基于验证器的基线方法，且训练效率更高（步数减少、内存占用降低）。即使未训练数学数据，其推理能力仍能迁移至数学任务，验证了方法的泛化性。