九坤:熵最小化加速LLM收敛

article/2025/8/7 11:23:42

在这里插入图片描述

📖标题:One-shot Entropy Minimization
🌐来源:arXiv, 2505.20282

🌟摘要

我们训练了 13,440 个大型语言模型,发现熵最小化只需要一个未标记的数据和 10 步优化,以实现比使用数千个数据获得的性能改进,并在基于规则的强化学习中精心设计的奖励。这种惊人的结果可能会促使重新思考大型语言模型的训练后范式。我们的代码可在 https://github.com/zitian-gao/one-shot-em 获得。

🛎️文章简介

🔸研究问题:如何实现一种有效的无监督方法来提升大语言模型(LLM)的推理能力,而不需要大量的标注数据?
🔸主要贡献:论文提出了一种名为“一次性熵最小化”(One-shot EM)的方法,该方法在无监督的情况下,实现了与传统强化学习相当甚至更优的模型性能。

📝重点思路

🔸使用熵最小化(EM)算法来减少模型在生成过程中对自身预测的不确定性,鼓励模型在生成的每一步中聚焦于高概率的正确答案。
🔸通过基于方差的数据选择策略来优先选择那些在多个采样中表现出最高行为方差的输入,以促进熵驱动的优化。
🔸进行了一系列实验,以评估EM在不同基线模型上的表现,并分析温度对训练和推理的影响。
🔸探讨了数据选择目标的设定和模型的预测不确定性如何引导参数更新。

🔎分析总结

🔸实验结果表明,仅使用一个样本的EM方法在多个数学推理基准上表现出了显著的性能提升,显示了该方法的高效性和快速收敛性。
🔸EM训练后的模型表现出更高的置信度和更一致的输出,通过对浮动质点分布的分析,EM显著增强了高概率推理路径的有效性。
🔸研究发现,EM在提升模型表现时要求更少的样本和计算资源,与强化学习相比,其需求大幅降低,同时在一些情况下可能会导致模型过于自信,影响性能。
🔸通过对数量样本和样本长度的基础研究,论文指出一键EM的训练动力学显示出更稳定的输出,从而减少了样本偏差。

💡个人观点

论文的核心在在于通过熵最小化机制来优化模型输出分布,并基于此来选择高方差数据,显著增加了模型的收敛效率。

🧩附录

在这里插入图片描述
在这里插入图片描述


http://www.hkcw.cn/article/lVAtDkftDH.shtml

相关文章

微服务面试(分布式事务、注册中心、远程调用、服务保护)

1.分布式事务 分布式事务,就是指不是在单个服务或单个数据库架构下,产生的事务,例如: 跨数据源的分布式事务跨服务的分布式事务综合情况 我们之前解决分布式事务问题是直接使用Seata框架的AT模式,但是解决分布式事务…

儿童节快乐,聊聊数字的规律和同余原理

某年的6月1日是星期日。那么,同一年的6月30日是星期几? 星期是7天一个循环。所以说,这一天是星期几,7天之后同样也是星期几。而6月30日是在6月1日的29天之后:29 7 4 ... 1用29除以7,可以得出余数为1。而…

视觉分析明火检测助力山东化工厂火情防控

视觉分析技术赋能化工厂火情防控:从山东事故看明火与烟雾检测的应用价值 一、背景:山东化工事故中的火情防控痛点 近期,山东高密友道化学有限公司、淄博润兴化工科技有限公司等企业接连发生爆炸事故,暴露出传统火情防控手段的局…

javaEE->多线程:定时器

一. 定时器 约定一个时间,时间到了,执行某个代码逻辑(进行网络通信时常见) 客户端给服务器发送请求 之后就需要等待 服务器的响应,客户端不可能无限的等,需要一个最大的期限。这里“等待的最大时间”可以用…

HTML表单

1. 什么是表单 表单常用格式 文本框 密码框 单选按钮 复选框 列表框 按钮 多行文本域 文件域 邮箱 网址 数字 滑块 搜索框 2. 表单的高级应用 隐藏域(⭐) 隐藏域在网页中会经常被使用,比如我们登录了以后需要持续使用我们的登录信息&#xff…

STM32F407寄存器操作(ADC非连续扫描模式)

1.前言 书接上回,在看手册的时候我突然发现手册上还描述了另一种ADC扫描模式,即非连续扫描模式,想着连续扫描模式都已经探索过了,那就顺手把非非连续模式研究一下吧。 2.理论 我们先看看手册,这里我就以规则通道举例…

老年照护实训室建设方案设计:基础照护与专业护理实训

老年照护实训室的建设是提升老年照护人才培养质量的关键环节,其方案设计需精准对接基础照护与专业护理的实训需求,为学习者构建理论与实践深度融合的教学场景。点击获取实训室建设方案 一、建设背景与目标 (一)建设背景 随着人…

C语言 — 文件

目录 1.流1.1 流的概念1.2 常见的的流 2.文件的打开和关闭2.1 fopen函数2.2 fclose函数2.3 文件的打开和关闭 3.文件的输入输出函数3.1 fputc函数3.2 fgetc函数3.3 feof函数和ferror函数3.4 fputs函数3.5 fgets函数3.6 fwrite函数3.7 fread函数3.8 fprintf函数3.9 fscanf函数 4…

13. springCloud AlibabaSeata处理分布式事务

目录 一、分布式事务面试题 1.多个数据库之间如何处理分布式事务? 2.若拿出如下场景,阁下将如何应对? 3.阿里巴巴的Seata-AT模式如何做到对业务的无侵入? 4.对于分布式事务问题,你知道的解决方案有哪些?请你谈谈? 二、分布式事务问题…

java多线程与JUC

进程线程 进程:进程是操作系统分配资源的基本单位。在电脑中,一个软件就是一个进程 线程:线程是CPU调度的基本单位,是进程内的执行单元。相当于一个软件中的不同功能 多线程程序的特点:程序可以同时去做多件事&#…

GCC 下载安装

下载 官网:GCC, the GNU Compiler Collection- GNU Project Cygwin linux 环境 MinGW 在 Windows 上提供 GNU 开发工具比 Cygwin 更轻量(不模拟完整的 POSIX 环境)选择:binaries选择mingw-w64

GpuGeek如何成为AI基础设施市场的中坚力量

AI时代,算力基础设施已成为支撑技术创新和产业升级的关键要素。作为国内专注服务算法工程师群体的智算平台,GpuGeek通过持续创新的服务模式、精准的市场定位和系统化的生态建设,正快速成长为AI基础设施领域的中坚力量。本文将深入分析GpuGeek…

DAY 35 超大力王爱学Python

知识点回顾: 三种不同的模型可视化方法:推荐torchinfo打印summary权重分布可视化进度条功能:手动和自动写法,让打印结果更加美观推理的写法:评估模式 作业:调整模型定义时的超参数,对比下效果。…

MYOJ_4149:(洛谷P1002)[NOIP 2002 普及组] 过河卒(坐标型DP)

题目描述 棋盘上 A 点有一个过河卒,需要走到目标 B 点。卒行走的规则:可以向下、或者向右。同时在棋盘上 C 点有一个对方的马,该马所在的点和所有跳跃一步可达的点称为对方马的控制点。因此称之为“马拦过河卒”。 棋盘用坐标表示&#xff0…

Java高效处理大文件:避免OOM的深度实践

​关键痛点​:当加载10GB的CSV文件时,Files.readAllLines()抛出OutOfMemoryError,该如何解决? 在Java中处理大文件是开发中的高频场景,尤其在大数据、日志分析等领域。本文将深入探讨几种高效处理大文件的方案&#x…

Word双栏英文论文排版攻略

word写双栏英文论文的注意事项 排版首先改字体添加连字符还没完呢有时候设置了两端对齐会出现这样的情况: 公式文献 等我下学期有时间了,一定要学习Latex啊,word写英文论文,不论是排版还是公式都很麻烦的,而Latex一键就…

esp-idf ubuntu环境配置

常用命令 source ~/esp/esp-idf/export.shidf.py --list-targets idf.py set-target 将清除 build 目录,并重新生成 sdkconfig 文件,原来的 sdkconfig 文件保存为 sdkconfig.old。 idf.py build idf.py flashNo module named pip wget https://bootst…

BFS入门刷题

目录 P1746 离开中山路 P1443 马的遍历 P1747 好奇怪的游戏 P2385 [USACO07FEB] Bronze Lilypad Pond B P1746 离开中山路 #include <iostream> #include <queue> #include <cstring> using namespace std; int n; int startx, starty; int endx, endy; …

Cypress + TypeScript + Vue3

🚀 从零构建 Cypress + TypeScript + Vue3 组件测试环境【详细实战教程】 组件测试是前端开发中不可忽视的一环,它能够帮助我们在开发阶段就发现 UI 与交互逻辑问题。本文将带你手把手搭建基于 Cypress + TypeScript + Vue3 的组件测试环境,包含完整目录结构、配置文件、组…

车辆检测算法在爆炸事故应急响应中的优化路径

视觉分析赋能车辆管控&#xff1a;以山东应急场景为例 背景&#xff1a;应急场景下的车辆管控痛点 近期山东多起爆炸事故暴露了应急响应中的车辆管理短板&#xff1a;消防车、救护车因违停车辆堵塞通道&#xff0c;违规车辆闯入事故核心区&#xff0c;传统监控系统依赖人工识别…