聊聊在大模型推理强化学习中熵机制上的探索-海口c网

聊聊在大模型推理强化学习中熵机制上的探索

article/2025/9/9 4:18:53

原文首发：https://mp.weixin.qq.com/s/M-KqQWVI-Z7kYXvgD4WeHw

在RL训练LLM的过程中，普遍存在模型entropy迅速下降/性能迅速饱和的现象。这导致模型过度自信，进而削弱其探索能力，最终限制了性能的进一步提升。

我们通过广泛的实验，在不加熵干预的前提下建立了一个描述模型性能（R）与策略熵（H）关系的经验公式：

$R = - a * e x p (H) + b$

揭示了两者间的“权衡”关系，即性能的提升往往伴随着策略熵的消耗。更重要的是，这一关系预示了性能的理论上限（当 $H = 0$ 时， $R = - a + b$ ）。因此，若不有效进行熵管理，单纯增加RL训练的计算资源，其效益可能受限。

针对熵单调下降的现象，我们从理论与实验两方面深入分析了其动态机制。研究的核心结论是：熵的动态变化主要由所选动作的概率与对应logits变化量（在策略梯度类算法中，该变化量与优势advantage成正比）之间的协方差所驱动。

具体而言，高概率且具备高优势的动作倾向于降低熵，反之，低概率但具备高优势的动作则有助于提升熵。实验发现，在训练过程中，此协方差多数情况下为正值，从而导致熵持续下降。

基于对熵动态机制的理解，我们提出了两种针对性的熵控制方法：Clip-Cov 与 KL-Cov。这两种方法通过对高协方差的token更新进行约束来控制熵，防止其过早崩溃。实验结果表明我们提出的熵控制方法效果显著，能够促使模型进行更持续的探索，从而摆脱“低熵陷阱”，并取得更优性能。

以Qwen2.5-32B模型为例，与基线GRPO相比，我们的方法实现了平均6.4%的性能提升；在AIME24等高难度基准测试中，提升高达15.0%。

大模型在为强化学习提供强大先验的同时，其更为狭窄的输出分布是一把双刃剑。最近许多工作表明简单地使模型的输出分布更加狭窄就可以提升模型表现，但这同时也榨干了模型继续探索和提升的空间。我们希望为scale大模型的强化学习提供一个以熵为核心的全新视角。

相关论文与代码均已公开发布，欢迎大家阅读、指正与交流！

论文：The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
链接：https://arxiv.org/abs/2505.22617
代码：https://github.com/PRIME-RL/Entropy-Mechanism-of-RL

聊聊在大模型推理强化学习中熵机制上的探索

相关文章

基于地理特征金字塔的层次化AI定位方案：从人脑推理到卫星图谱的跨尺度匹配

马哈蒂尔：中国不会轻易被美国击败，或将成世界第一强国

汽车价格战再起 20多万的车14万卖真降价还是假套路？

原县委书记花上千万建10个厕所被查豪华公厕引争议

UHF RFID无源标签的芯片供电原理

C++？多态！！！

耿爽回应美方抹黑：完全不可接受反对无端指责和政治操弄

Assert failed in file queue.c, line 753

著名物理学家汪承灏逝世享年87岁贡献卓著

特朗普：特斯拉将在美国生产整车必须在美国生产整车

马斯克：吃了儿子一拳，意外淤青引发猜测

儿童节演出服穿完就退？商家出奇招贴纸防退货

F1西班牙站一练：诺里斯全场最快新秀表现亮眼

单依纯《歌手》第三期第二排名引发热议

浏览器指纹科普 | Canvas 指纹是什么？

曝苹果重启固态按键研发全产品线探索触觉按钮方案

RFID推动医行智能终审系统药物管理应用案例

【文献速递】结合AI解析解毒三根汤对抗结直肠癌的生物活性成分

深入探究 MNIST 数据集 - Fastai 第三部分

5. 算法与分析 (2)