谷歌:贝叶斯框架优化LLM推理反思

article/2025/6/24 17:15:15

在这里插入图片描述

📖标题:Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning
🌐来源:arXiv, 2505.20561

🌟摘要

通过强化学习 (RL) 训练的大型语言模型 (LLM) 表现出强大的推理能力和紧急反射行为,例如回溯和纠错。然而,传统的马尔可夫 RL 将探索限制在训练阶段以学习最佳确定性策略,并且仅通过当前状态依赖于历史上下文。因此,尚不清楚反射推理是否会在马尔可夫 RL 训练期间出现,或者为什么它们在测试时有益。为了解决这个问题,我们在贝叶斯自适应 RL 框架内重铸了反射探索,该框架明确地优化了马尔可夫决策过程的后验分布下的预期回报。这种贝叶斯公式固有地通过信念更新激励奖励最大化开发和信息收集探索。我们的结果算法 BARL 指示 LLM 根据观察到的结果进行缝合和切换策略,为模型应该如何反思探索提供原则性的指导。合成推理和数学推理任务的经验结果表明,BARL 在测试时优于标准的马尔可夫 RL 方法,实现了卓越的令牌效率,提高了探索效率。我们的代码可在 https://github.com/shenao-zhang/BARL 获得。

🛎️文章简介

🔸研究问题:在测试阶段,有效的反思性推理为何如此重要,并在什么情况下能够通过常规的强化学习训练出有效的反思性行为?
🔸主要贡献:论文提出了一种基于贝叶斯自适应强化学习的框架(BARL),优化大语言模型(LLM)在推理任务中的测试时间表现,并自然引导反思性探索行为。

📝重点思路

🔸使用贝叶斯自适应MDP背景下的策略梯度,替换预定义MDP下的值为后验加权值。
🔸通过维持对MDP的不确定性,个体能够通过累积观测更新对MDP参数的信念,依赖历史信息进行决策。
🔸促进探索性反思行为,策略在保证能获取更多背景信息的同时,能够自适应切换策略以降低MDP的不确定性。
🔸在训练和测试阶段都保持奖励的最大化和探索的平衡,使得模型能够在测试过程中有效收集上下文信息。

🔎分析总结

🔸BARL在大多数基准测试中的准确性高于常规的马尔可夫强化学习基线,尤其是在需要有效探索的挑战性基准上表现出更大改进。
🔸即使在面临高复杂度的问题时,BARL仍然能以较低的计算开销实现更高的准确性,展现出其反思性探索的有效性。
🔸研究表明,反思性行为的有效性与采样策略的优化和上下文信息的收集显著相关,而不仅仅是出现频率。
🔸通过反思性的策略切换,BARL模型在应对训练与评估之间的分布偏移时表现出的通用性是其关键优势之一。

💡个人观点

论文通过引入贝叶斯框架来解决传统马尔可夫模型的局限性,使得模型在测试阶段不仅能高效利用上下文信息,还能自适应地进行策略反思,从而显著提升了推理质量和准确性。

🧩附录

在这里插入图片描述


http://www.hkcw.cn/article/mwibTbUuTc.shtml

相关文章

C# 文件 I/O 操作详解:从基础到高级应用

在软件开发中,文件操作(I/O)是一项基本且重要的功能。无论是读取配置文件、存储用户数据,还是处理日志文件,C# 都提供了丰富的 API 来高效地进行文件读写操作。本文将全面介绍 C# 中的文件 I/O 操作,涵盖基…

PCB设计教程【强化篇】——USB拓展坞原理图设计

前言 本教程基于B站Expert电子实验室的PCB设计教学的整理,为个人学习记录,旨在帮助PCB设计新手入门。所有内容仅作学习交流使用,无任何商业目的。若涉及侵权,请随时联系,将会立即处理 目录 前言 一、新建工程与元件…

开源版 PyMOL 如何绘制 Galidesivir 分子结构 ?

参阅:开源版PyMol安装保姆级教程 百度网盘下载 提取码:csub pip show pymol 简介: PyMOL是一个Python增强的分子图形工具。它擅长蛋白质、小分子、密度、表面和轨迹的3D可视化。它还包括分子编辑、射线追踪和动画。 先从 www.python.org 下载 python-…

Leetcode 2819. 购买巧克力后的最小相对损失

1.题目基本信息 1.1.题目描述 现给定一个整数数组 prices,表示巧克力的价格;以及一个二维整数数组 queries,其中 queries[i] [ki, mi]。 Alice 和 Bob 去买巧克力,Alice 提出了一种付款方式,而 Bob 同意了。 对于…

Torch Geometric环境下无线通信网络拓扑推理节点数据缺失实验

节点数据缺失样本生成: gcn_dataset_incomplete.py #作者:zhouzhichao #创建时间:2025/5/30 #内容:生成残缺数据集用于实验import h5py import numpy as np import torch from torch_geometric.data import InMemoryDataset, Da…

【网络与信息安全】实验三 RSA加解密与签名验证

实验三、RSA加解密与签名验证 一、实验基本信息 实验名称:RSA加解密与签名验证实验目的: 理解 RSA 加密解密 与 数字签名验证 的原理。借助 CyberChef 可视化平台,观察和理解加密与签名背后的数据变化。 二、实验环境 操作系统&#xff1a…

HackMyVM-Ephemeral3

信息搜集 主机发现 ┌──(root㉿kali)-[~] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:39:60:4c, IPv4: 192.168.43.126 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.43.1 c6:45:66:05:91:88 …

131. 分割回文串-两种回溯思路

我们可以将字符串分割成若干回文子串,返回所有可能的方案。如果将问题分解,可以表示为分割长度为n-1的子字符串,这与原问题性质相同,因此可以采用递归方法解决。 为什么回溯与递归存在联系?在解决这个问题时&#xff0…

Another Redis Desktop Manager 1.3.7 安装教程 - 详细步骤图解 (Windows)

在安装前需要下载安装包:https://pan.quark.cn/s/2dd4432cefaa 下载安装包 先找到那个叫 Another-Redis-Desktop-Manager.1.3.7.exe 的文件,双击它运行 安装向导 接着会出来安装界面,直接点“下一步”(Next)继续。 …

ShenNiusModularity项目源码学习(32:ShenNius.Admin.Mvc项目分析-17)

栏目管理页面用于新建、维护及删除系统CMS管理模块的栏目信息,栏目信息用于分类管理文章,其后台控制器类ColumnController位于ShenNius.Admin.Mvc项目的Areas\Cms\Controllers内,页面文件位于同项目的Areas\Cms\Views\Column内,其…

Python(十四)

1.type函数和init_subclass_ init_subclass_ 2.元类 类就是用来创建对象的模版,类是由type创造而来的,元类就是创建类的模版,type可以用来创造类,因为type本身就是一个元类,使用元类来创造类,元类之间也有…

Unity3D仿星露谷物语开发58之保存时钟信息到文件

1、目标 保存当前的时钟信息到文件中。 2、修改TimeManager对象 TimeManager对象添加组件:Generate GUID 3、修改SceneSave.cs脚本 添加1行代码: 4、修改TimeManager.cs脚本 添加: using System; 修改TimeManager类: 添加属…

蓝桥杯java2022年十三届国赛大学A组答案整理

小蓝与钥匙 问题描述 小蓝是幼儿园的老师, 他的班上有 28 个孩子, 今天他和孩子们一起进行了 一个游戏。 小蓝所在的学校是寄宿制学校, 28 个孩子分别有一个自己的房间, 每个房 间对应一把钥匙, 每把钥匙只能打开自己的门。现在小蓝让这 28 个孩子分别将 自己宿舍的钥匙上交…

【Block总结】Dynamic Tanh (DyT)|即插即用|何凯明和Yann LeCun署名

论文信息 Dynamic Tanh (DyT) 是由Meta、NYU、MIT和Princeton的研究团队提出的一种新方法,旨在取代Transformer模型中的归一化层(如LayerNorm和RMSNorm)。论文的核心目标是挑战深度学习中“归一化层不可或缺”的传统认知,提出一种更简单、更高效的替代方案。 DyT 的提出基…

不加载PHP OpenTelemetry SDK实现Trace‌与Logs

目录 前言一、回到OpenTelemetry原理看问题1、数据接收(Receivers)2、数据处理(Processors)3、数据导出(Exporters) 二、不加载OpenTelemetry SDK实现Trace‌与Logs示例 前言 前面两篇我们分别介绍了OpenT…

一文认识并学会c++模板初阶

文章目录 泛型编程:概念 函数模板概念:🚩函数模板格式原理:🚩函数模板实例化与非模板函数共存 类模板类模板实例化 泛型编程: 概念 🚩编写与类型无关的通用代码,是代码复写一种手段…

leetcode刷题日记——二叉树的右视图

[ 题目描述 ]: [ 思路 ]: 二叉树的右视图:即二叉树每层最右边的节点BFS:使用层次遍历,每当遍历到每层最后一个节点时,记录改节点的值运行如下 int* rightSideView(struct TreeNode* root, int* returnS…

python 空气质量可视化,数据分析 + 前后端分离 + ppt 演讲大纲

1. 起因, 目的: 前段时间写的一个小项目,整理为一篇文章,发布出去,然后删掉项目。完整项目,见顶部链接。使用过程, 下面有说明。 2. 先看效果 3. 过程: 后端 python fastapi前端 python plotly # 数据…

|从零开始的Pyside2界面编程|绘图、布局及页面切换

🐑 |从零开始的Pyside2界面编程| 布局及页面切换🐑 文章目录 🐑 |从零开始的Pyside2界面编程| 布局及页面切换🐑♈前言♈♈页面切换♈♈页面布局♈♈总结♈ ♈前言♈ 经过两周的学习自己设备的前端也算是完成了一小半了&#xff…

我的世界Java版1.21.4的Fabric模组开发教程(十一)创建方块

这是适用于Minecraft Java版1.21.4的Fabric模组开发系列教程专栏第十一章——创建方块。想要阅读其他内容,请查看或订阅上面的专栏。 方块(Block) 是构成Minecraft世界的主要组成部分,是组成游戏地图的最基本单元,也是模组开发的核心元素之一…