聊聊在大模型推理强化学习中熵机制上的探索

article/2025/7/2 19:59:27

原文首发:https://mp.weixin.qq.com/s/M-KqQWVI-Z7kYXvgD4WeHw

在RL训练LLM的过程中,普遍存在模型entropy迅速下降/性能迅速饱和的现象。这导致模型过度自信,进而削弱其探索能力,最终限制了性能的进一步提升。

我们通过广泛的实验,在不加熵干预的前提下建立了一个描述模型性能(R)与策略熵(H)关系的经验公式:

R = − a ∗ e x p ( H ) + b R = -a * exp(H) + b R=aexp(H)+b

揭示了两者间的“权衡”关系,即性能的提升往往伴随着策略熵的消耗。更重要的是,这一关系预示了性能的理论上限(当 H = 0 H=0 H=0 时, R = − a + b R = -a+b R=a+b )。因此,若不有效进行熵管理,单纯增加RL训练的计算资源,其效益可能受限

针对熵单调下降的现象,我们从理论与实验两方面深入分析了其动态机制。研究的核心结论是:熵的动态变化主要由所选动作的概率与对应logits变化量(在策略梯度类算法中,该变化量与优势advantage成正比)之间的协方差所驱动

具体而言,高概率且具备高优势的动作倾向于降低熵,反之,低概率但具备高优势的动作则有助于提升熵。实验发现,在训练过程中,此协方差多数情况下为正值,从而导致熵持续下降。

基于对熵动态机制的理解,我们提出了两种针对性的熵控制方法:Clip-Cov 与 KL-Cov。这两种方法通过对高协方差的token更新进行约束来控制熵,防止其过早崩溃。实验结果表明我们提出的熵控制方法效果显著,能够促使模型进行更持续的探索,从而摆脱“低熵陷阱”,并取得更优性能。

以Qwen2.5-32B模型为例,与基线GRPO相比,我们的方法实现了平均6.4%的性能提升;在AIME24等高难度基准测试中,提升高达15.0%。

大模型在为强化学习提供强大先验的同时,其更为狭窄的输出分布是一把双刃剑。最近许多工作表明简单地使模型的输出分布更加狭窄就可以提升模型表现,但这同时也榨干了模型继续探索和提升的空间。我们希望为scale大模型的强化学习提供一个以熵为核心的全新视角。

相关论文与代码均已公开发布,欢迎大家阅读、指正与交流!

论文:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
链接:https://arxiv.org/abs/2505.22617
代码:https://github.com/PRIME-RL/Entropy-Mechanism-of-RL

http://www.hkcw.cn/article/yZGBLlkPEY.shtml

相关文章

基于地理特征金字塔的层次化AI定位方案:从人脑推理到卫星图谱的跨尺度匹配

基于地理特征金字塔的层次化AI定位方案:从人脑推理到卫星图谱的跨尺度匹配 一、仿生推理框架:从人脑定位逻辑到AI层次化建模 1.1 人类视觉定位的认知机制 神经科学研究表明,人类定位遵循"三级推理链": 宏观特征锚定&…

马哈蒂尔:中国不会轻易被美国击败,或将成世界第一强国

马来西亚前总理马哈蒂尔5月30日在东京出席“日经新闻”主办的“亚洲的未来”年度论坛时发表讲话,表示中国不会轻易被美国击败,并且看起来将成为世界第一强国。他认为,鉴于美国日趋保守的政策取向,美国将无法阻止中国的发展势头。马哈蒂尔批评了特朗普的关税政策,称其让美国…

汽车价格战再起 20多万的车14万卖 真降价还是假套路?

近期,汽车市场出现了一系列低价促销活动,如吉利帝豪标价2.99万元、奇瑞瑞虎3x售价3.49万元以及比亚迪海豹直降5.3万元。这些价格吸引了大量关注,但背后隐藏着一些套路。比亚迪于5月23日推出“限时一口价”促销活动后,吉利、奇瑞和凯迪拉克等品牌迅速跟进。然而,记者在走访…

原县委书记花上千万建10个厕所被查 豪华公厕引争议

刚摘掉深度贫困县帽子的通榆县,时任县委书记李德明就斥资上千万元建造了10个豪华水冲公厕。日前,吉林省纪委监委公开通报了4起形式主义、官僚主义典型问题,其中提到李德明搞劳民伤财的“形象工程”。2023年,他升任省农业农村厅厅长,直至2025年1月主动投案。李德明主政的通…

UHF RFID无源标签的芯片供电原理

作为无源物联网技术中最基础的一环,UHF RFID无源标签已经被广泛用于商超零售、物流仓储、图书档案、防伪溯源等量非常大的应用领域,仅2021年度,全球出货量就超过200亿。在实际应用中UHF RFID无源标签的芯片是究竟依靠什么来供电的呢? UHF RFID无源标签供电特点 1.借助无线…

C++?多态!!!

一、引言 众所周知,C有三大特性,它们分别是封装、继承和多态,在之前的文章中已经详细介绍过封装和继承了,今天我们将一起学习多态相关的知识,如果还想了解封装、继承相关的知识,可以跳转到以下链接&#xf…

耿爽回应美方抹黑:完全不可接受 反对无端指责和政治操弄

中国常驻联合国副代表耿爽在安理会审议向乌克兰提供武器问题时发言指出,战场上武器数量不断增加只会加剧对抗、延长战火。自俄乌冲突爆发以来,中方一直呼吁冲突当事方尽快停火止战。遗憾的是,乌克兰危机仍在持续,平民伤亡人数不断增加,令人深感痛心和忧虑。在当前俄乌双方…

Assert failed in file queue.c, line 753

实在程序运行的时候出现的,根据提示找到相关的位置, 说明要操作的信号量还没被初始化(注册) ,在抛信号量之前要使用sys_sem_new初始化一下。 如果出现这个问题,那么检查一下是不是忘了初始化。

著名物理学家汪承灏逝世 享年87岁贡献卓著

著名物理学家、中国科学院院士汪承灏研究员因病医治无效,于2025年5月29日在北京逝世,享年87岁。他曾担任政协北京市第十届委员会常务委员、中国科学院大学荣誉讲席教授及中国科学院声学研究所学术委员会原主任,并培养了众多博士生。汪承灏在功率超声、晶体声学、声表面波器件…

特朗普:特斯拉将在美国生产整车 必须在美国生产整车

5月30日,美国总统特朗普表示,美国汽车制造商必须在美国生产整车和所有零部件,而不是在国外生产。他提到,之前汽车制造商在加拿大、墨西哥、欧洲生产零部件,这让他感到困扰。特朗普强调,在接下来的一年里,这些汽车制造商需要在美国完成整车的生产。尽管特朗普有此要求,但…

马斯克:吃了儿子一拳,意外淤青引发猜测

5月30日,马斯克出现在白宫椭圆形办公室与美国总统特朗普的告别会上,眼角淤青引起外界猜测。马斯克解释说,这是他的儿子玩耍时打在他脸上的结果。他提到当时和儿子开玩笑,让儿子朝他脸上打一拳,没想到五岁的孩子也能造成这样的伤害。马斯克表示当时没觉得怎么样,但之后就出…

儿童节演出服穿完就退?商家出奇招 贴纸防退货

去年“六一”儿童节,商家投诉表演服被大量退货的事件频登热搜。今年临近“六一”,不少商家在社交平台上分享了防范技巧。从事童装生意10年的山东菏泽商家周女士就是其中之一。她发现退货的衣物损毁污染严重。为了避免再次遭受类似损失,周女士在每件儿童表演服上都贴上了醒目…

F1西班牙站一练:诺里斯全场最快 新秀表现亮眼

北京时间5月30日,F1西班牙大奖赛第一次练习赛结束。诺里斯以最快成绩领跑全场,维斯塔潘和汉密尔顿紧随其后。勒克莱尔、皮亚斯特里、劳森、贝尔曼、哈贾尔、角田裕毅和加斯利分别位列第四至第十名。拉塞尔排名第十一,安东内利排在第十八位,科拉平托垫底。今年新加入威廉姆斯…

单依纯《歌手》第三期第二 排名引发热议

5月30日晚,《歌手2025》第三期播出,本期迎来“袭榜战”。美国流行乐歌手查理普斯,昵称“断眉”,挑战成功,取代了单依纯的位置,白举纲被淘汰。排名依次为:格瑞丝金斯勒、单依纯、米奇盖顿、GAI周延、陈楚生、马嘉祺和白举纲。节目一开始,主持人何炅介绍了袭榜歌手查理普…

浏览器指纹科普 | Canvas 指纹是什么?

Canvas 是浏览器用来绘图的功能,常见于动画、图表等可视化内容。网站可以让你的浏览器绘制一张隐形图像,再读取这张图像的像素细节,生成一串唯一的“图像指纹”。 🔍 它是怎么产生的? 虽然大家执行的绘图代码一样&…

曝苹果重启固态按键研发 全产品线探索触觉按钮方案

据博主 @刹那数码 爆料,苹果重启了内部代号为 bongo 的项目,该项目不仅涉及iPhone,还包括iPad、Apple Watch等全产品线。bongo 项目旨在探索触觉按钮方案,即去掉所有物理按钮,转而采用带有触觉反馈的固态按键。此前该博主提到,iPhone 固态按钮项目的生产成本不是问题,但…

RFID推动医行智能终审系统药物管理应用案例

一、项目背景 在医疗行业,药物管理的准确性和效率至关重要。传统的药物信息管理方式依赖人工记录和检索,容易出现错误且效率低下。为了提升药物管理水平,某大型医院引入医行智能终审系统,并结合广州晨控智能的RFID读卡器&#xf…

【文献速递】结合AI解析解毒三根汤对抗结直肠癌的生物活性成分

2025年4月21日,浙江省中医院阮善明教授团队在Phytomedicine(IF:6.7)上发表了题为“Bioactive components of Jiedu Sangen decoction against colorectal cancer: A novel and comprehensive research strategy for natural drug …

深入探究 MNIST 数据集 - Fastai 第三部分

在 fastai 第一部分中,我们学习了如何对 MNIST 数据集进行分类。在本教程中,我们将更深入地了解其底层原理。首先,我们将详细探索 MNIST 数据集。 数据探索 # 第一部分的代码 import torch import random from fastai.vision.all import *#…

5. 算法与分析 (2)

本节主要介绍算法时间复杂度的具体求法和空间复杂度 本文部分ppt、视频截图来自:[青岛大学-王卓老师的个人空间-王卓老师个人主页-哔哩哔哩视频] 1. 算法分析 1.1 分析算法时间复杂度的基本方法 定理1.1 即忽略所有低次幂项和最高次幂系数,体现出增长…