颠覆传统!单样本熵最小化如何重塑大语言模型训练范式?

article/2025/6/18 2:03:54

颠覆传统!单样本熵最小化如何重塑大语言模型训练范式?

大语言模型(LLM)的训练往往依赖大量标注数据与复杂奖励设计,但最新研究发现,仅用1条无标注数据和10步优化的熵最小化(EM)方法,竟能在数学推理任务上超越传统强化学习(RL)。这一突破性成果或将改写LLM的训练规则,快来了解这场效率革命!

论文标题

One-shot Entropy Minimization

来源

arXiv:2505.20282v2 [cs.CL] + https://arxiv.org/abs/2505.20282

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLM)的训练后优化(post-training)近年来发展迅猛,DeepSeek-R1、Kimi-K1.5和OpenAI o-series等模型展现出卓越的推理能力。然而,传统强化学习(RL)方法在应用中面临显著挑战:其不仅需要大量高质量标注数据,还需精心设计规则化奖励函数以最大化优势信号,同时防范“奖励黑客”问题。与之形成鲜明对比的是,熵最小化(EM)作为完全无监督方法,在训练效率与便捷性上具备潜在优势。本研究通过训练13,440个LLM,系统验证了EM仅用单条无标注数据和10步优化即可超越传统RL的可能性,为LLM训练后优化范式提供了全新思路。

研究问题

1. 数据效率低下:RL需数千条标注数据,而无监督方法的潜力尚未充分挖掘。

2. 训练复杂度高:RL需设计复杂奖励函数,且易出现“奖励黑客”(reward hacking)问题。

3. 收敛速度缓慢:RL通常需数千步训练,而高效优化方法亟待探索。

主要贡献

1. 单样本高效优化:提出One-shot Entropy Minimization(单样本熵最小化)方法,仅用1条无标注数据+10步优化,性能超越传统RL(如在Qwen2.5-Math-7B模型上,MATH500数据集得分提升25.8分)。

2. 理论机制创新:揭示EM与RL的核心目标一致(释放预训练模型潜力),但通过“对数几率右移”(logits shift)机制驱动模型行为,与RL的左移方向相反,更利于生成高概率正确路径。

3. 关键因素解析:发现温度参数(temperature)是训练与推理的核心变量,EM在推理时温度趋势与RL完全相反(EM随温度升高性能下降,RL反之)。

3. 范式重新定义:证明EM是“分布塑形工具”而非学习方法,其效果在10步内即可完成,后续训练 loss 下降与性能提升解耦。

方法论精要

1. 核心算法/框架

熵最小化算法:通过最小化生成token的条件熵 H t H_t Ht,迫使模型对预测更自信,仅计算生成token(非prompt部分)的熵。

数据选择策略:基于“方差筛选”选择最具不确定性的输入——计算模型在k次采样中的“pass@k准确率方差”,优先选择方差最高的prompt(如NuminaMath数据集中的风力压力计算问题)。

2. 关键参数设计原理

温度参数0.5:训练时温度过低会使分布过窄,过高则增加随机性,0.5时性能方差最大,易获峰值表现。

学习率 2 × 10 − 5 2×10^{-5} 2×105:10步快速收敛的最优选择,过大易导致过自信,过小则收敛缓慢。

3. 创新性技术组合

无监督+方差筛选:无需标注数据,仅通过模型自身预测的不确定性筛选有效输入,形成“熵敏感”训练信号。

对数几率分析:EM使logits分布右偏(skewness提升至1.54),集中概率质量于正确路径,而RL导致左偏(skewness降至0.02)。

4. 实验验证方式

数据集:数学推理基准(MATH500、Minerva Math、Olympiad Bench、AMC23),以及LLaMA-3.1-8B、Qwen2.5系列等多模型测试。

基线方法:OpenReasoner-Zero、SimpleRL-Zoo、Prime-Zero等RL模型,对比其在数据量(129k-230k)与训练步数(240-4000步)上的劣势。

实验洞察

1. 性能优势

  • Qwen2.5-Math-7B模型:EM 1-shot使MATH500从53.0提升至78.8(+25.8),Minerva Math从11.0至35.3(+24.3),平均提升24.7分,接近Prime-Zero-7B等SOTA模型。
  • 跨模型泛化:在Qwen2.5-7B-Instruct模型上,EM将平均准确率从43.12%提升至44.5%,且对弱模型(LLaMA-3.1-8B)也有29.6%→42.2%的提升。

2. 效率突破

  • 训练步数:仅10步收敛,较RL的数千步提升数百倍;单样本训练速度比RL快3个数量级。
  • 数据效率:1条数据效果超过RL的数千条,如EM 1-shot在AMC23上得分70.3,超越SimpleRL-Zoo(24k数据+4000步)的55.3分。

3. 消融研究

  • 温度影响:训练时温度0.5性能最佳,推理时温度与性能负相关(温度1.0时EM平均得分下降5%,RL上升3%)。

  • 训练顺序:EM先于RL可提升性能(如Qwen2.5-Math-7B+EM+RL在AMC23得70.3),而RL后接EM会导致性能下降(如SimpleRL-Zoo+EM得分降低5.9分)。

Future Works

1. 稳定化训练机制开发:针对EM训练中存在的随机性问题(相同设置下不同种子得分差异可达2倍),探索自适应早停策略或正则化方法,如基于损失-性能解耦点的动态终止准则,降低温度参数敏感性,构建更鲁棒的训练框架。

2. 跨领域泛化探索:当前EM主要验证于数学推理任务,未来将拓展至对话生成、代码补全、科学文献总结等多模态场景,研究序列级熵优化(如全句语义熵)与任务特定先验融合技术,验证其作为通用分布塑形工具的普适性。

3. 混合优化范式构建:探索EM与监督微调(SFT)、RL的协同机制,例如设计“EM预塑形→SFT精调→RL校准”的流水线,或开发动态熵-奖励联合优化目标,平衡模型自信度与外部对齐要求,解决RL后接EM导致的“对齐税”问题。


http://www.hkcw.cn/article/nabdSLgFrq.shtml

相关文章

simulink mask、sfunction和tlc的联动、接口

这里全部是讲的level2 sfunction(用m语言编写),基于matlab 2020a。 1.mask的参数操作 1)mask通过set_param和get_param这2个函数接口对mask里面定义的Parameters&Dialog的参数的大部分属性进行读写,一般是Value值…

【数据结构】图的存储(邻接矩阵与邻接表)

图的存储结构 因为图中既有节点,又有边(节点与节点之间的关系),因此,在图的存储中,只需要保存:节点和边关系即可。 节点保存比较简单,只需要一段连续空间即可,那边关系该怎么保存呢&#xff1…

C++修炼:unordered_map和unordered_set的使用和封装

Hello大家好&#xff01;很高兴我们又见面啦&#xff01;给生活添点passion&#xff0c;开始今天的编程之路&#xff01; 我的博客&#xff1a;<但凡. 我的专栏&#xff1a;《编程之路》、《数据结构与算法之美》、《题海拾贝》、《C修炼之路》 欢迎点赞&#xff0c;关注&am…

Centos环境下安装/重装MySQL完整教程

目录 一、卸载残留的MySQL环境&#xff1a; 二、安装MySQL&#xff1a; 1、下载MySQL官方的yum源&#xff1a; 2、更新系统yum源&#xff1a; 3、确保系统中有了对应的MySQL安装包&#xff1a; 4、安装MySQL服务&#xff1a; 5、密钥问题安装失败解决方法&#xff1a; …

【机器学习基础】机器学习入门核心算法:决策树(Decision Tree)

机器学习入门核心算法&#xff1a;决策树&#xff08;Decision Tree&#xff09; 一、算法逻辑1.1 基本概念1.2 算法流程 二、算法原理与数学推导2.1 特征选择指标信息熵&#xff08;ID3算法&#xff09;信息增益&#xff08;Information Gain&#xff09;信息增益率&#xff0…

基于晶体塑性有限元(CPFEM)的钛合金圆棒拉伸过程模拟

作者&#xff1a;辞殇 关键词&#xff1a;CPFEM&#xff1b;钛合金&#xff1b;单轴拉伸&#xff1b;织构极图&#xff1b;孪晶 晶体塑性有限元是一种结合了晶体塑性理论和有限元方法的数值模拟技术‌。这种方法考虑了晶体材料的各向异性、滑移系统的开动和相互作用、以及变形…

开源是什么?我们为什么要开源?

本片为故事类文章推荐听音频哦 软件自由运动的背景 梦开始的地方 20世纪70年代&#xff0c;软件行业处于早期发展阶段&#xff0c;软件通常与硬件捆绑销售&#xff0c;用户对软件的使用、修改和分发权利非常有限。随着计算机技术的发展和互联网的普及&#xff0c;越来越多的开…

帕金森带来的生活困境

当这种健康状况出现&#xff0c;行动不再自如成为最明显的改变。日常行走时&#xff0c;步伐会逐渐变小、变慢&#xff0c;甚至会出现 “小碎步” 往前冲&#xff0c;难以停下&#xff0c;简单的起身、转身都可能变得艰难。手部也会不受控制地颤抖&#xff0c;拿水杯、系纽扣这…

第3期:PCB设计教程:自动布线与导出制版文件详解

第3期&#xff1a;PCB设计教程&#xff1a;自动布线与导出制版文件详解 一、前言 本篇教程主要聚焦于PCB设计中的自动布线功能及文件导出步骤。通过本教程&#xff0c;您将学习如何&#xff1a; 使用自动布线工具高效完成线路连接处理自动布线失败的情况进行DRC检查确保设计…

NACOS 动态配置

1.引入Nacos 配置中心依赖 <!-- nacso 配置中心--><dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-nacos-config</artifactId></dependency> 2.在application.properties 配置…

【清晰教程】查看和修改Git配置情况

目录 查看安装版本 查看特定配置 查看全局配置 查看本地仓库配置 设置或修改配置 查看安装版本 打开命令行工具&#xff0c;通过version命令检查Git版本号。 git --version 如果显示出 Git 的版本号&#xff0c;说明 Git 已经成功安装。 查看特定配置 如果想要查看特定…

C语言 — 动态内存管理

目录 1.malloc和free函数1.1 malloc函数1.2 free函数1.3 malloc函数的使用 2.calloc函数2.1 calloc函数2.2 calloc函数的使用 3.realloc函数3.1 realloc函数3.2 realloc函数的使用 4.动态内存管理笔试题4.1 笔试题&#xff08;1&#xff09;4.2 笔试题&#xff08;2&#xff09…

动态规划算法

简称 DP&#xff0c;是一种求解多阶段决策过程最优化问题的方法。在动态规划中&#xff0c;通过把原问题分解为相对简单的子问题&#xff0c;先求解子问题&#xff0c;再由子问题的解而得到原问题的解。 一、概念 动态规划最早由理查德 贝尔曼于 1957 年在其著作「动态规划&…

Qt -使用OpenCV得到SDF

博客主页&#xff1a;【夜泉_ly】 本文专栏&#xff1a;【暂无】 欢迎点赞&#x1f44d;收藏⭐关注❤️ 目录 cv::MatdistanceTransform获得SDF 本文的目标&#xff0c; 是简单学习并使用OpenCV的相关函数&#xff0c; 并获得QImage的SDF(Signed Distance Field 有向距离场) 至…

【小米拥抱AI】小米开源 MiMo-7B-RL-0530

更新日志 [2025.05.30] 在强化学习训练过程中&#xff0c;通过持续扩大训练窗口尺寸&#xff08;从32K提升至48K&#xff09;&#xff0c;MiMo-7B-RL-0530模型在AIME24基准测试上的表现持续提升&#xff0c;最终超越DeepSeek R1模型的性能水平。 BenchmarkMiMo-7B-RLMiMo-7B-…

俄布良斯克州桥梁坍塌致列车脱轨事故造成3死28伤

△图片来源:莫斯科交通检察院总台记者当地时间6月1日获悉,据俄罗斯紧急情况部初步统计,布良斯克州桥梁坍塌致火车脱轨事故共造成31人伤亡,其中3人不幸遇难,28人已送往医疗机构救治。此前据俄罗斯BAZA网站报道,事件造成4人死亡,至少44人受伤。俄紧急情况部称,救援人员正…

JDK17 与JDK8 共同存在一个电脑上

官网下载JDK17 官网链接 &#xff1a;https://www.oracle.com/java/technologies/downloads/#java17-windows 下载这个 安装 环境变量设置 因为之前设置过JDK 8这里为了使 两者共存&#xff0c;采用设置变量方式来实现具体操作如下 1、进入高级系统环境设置 1.1先建一个关…

打开NRODIC SDK编译不过怎么处理,keil与segger studio

打开NRODIC SDK编译不过怎么处理,以下是keil处理. 1,如图,不要安装安装也不会过 2. 不要安装点击否 3.点击确定后进来这个样子 4.这里选择这个勾,OK后就不会再有后面的pack_license 5.去掉勾后这里要选择自己SDK对应的pack版本,我的是8.27.0 6.OK后弹出个界面也要反复选择…

每日八股文5.31

每日八股-5.31 Go1.切片是值传递还是引用传递&#xff1f;2.切片的深拷贝与浅拷贝3.切片的底层实现4.切片的扩容机制5.Map是线程安全的吗&#xff1f;6.哪些类型可以作为map的key&#xff1f;7.Map删除一个key内存是否会释放&#xff1f;8.Map为什么是无序的&#xff1f;9.如何…

智能重塑连接:AI原生互联网的范式革命与未来十年

引言:互联网的下一幕——智能涌现与体验重塑 2024年初,OpenAI发布的文生视频模型Sora,以其惊人的逼真度和对物理世界的理解能力,再次将人工智能的魔力推向了全球聚光灯下。这不仅仅是一个技术演示,更像是一个强烈的信号:我们正加速驶向一个由AI深度重塑的未来。回望互联…