复旦提出自适应Reasoning方法ARM,“能屈能伸”

article/2025/7/23 12:28:45

为什么需要“自适应推理”?

LLM 虽然聪明,但有个“学霸病”——不管题目难易,都要写满解题过程。比如问“1+1=?”,它可能从宇宙起源开始推导,这就是论文提到的“过思考(overthinking)”问题。

论文:ARM: Adaptive Reasoning Model
链接:https://arxiv.org/pdf/2505.20258

对比传统模型每题都写长答案 vs ARM模型简单题直接给答案
对比传统模型每题都写长答案 vs ARM模型简单题直接给答案

这种“过度认真”不仅浪费计算资源(生成的token越多,耗电越多),甚至可能因为废话太多反而答错题!虽然人类可以手动控制回答长度,但这违背了AI自主决策的终极目标。

ARM模型如何做到“能屈能伸”?

ARM内置四种解题策略:

  • 直球模式(Direct Answer):直接报答案

  • 简略推理(Short CoT):写两三步关键思路

  • 代码解题(Code):用编程思维拆解问题

  • 深度思考(Long CoT):传统的长篇推导

还支持三种决策模式:

  • 自适应模式:AI自己判断题目难度选策略

  • 指令模式:人类指定用哪种方法(适合批量处理同类题)

  • 共识模式:三种简单方法投票,意见不一致再启动深度思考

不同模式在数学题、常识题中的表现对比

Ada-GRPO算法

传统强化学习方法(GRPO)有个致命问题——格式崩溃。就像学生发现写长答案得分高,就所有题都写长答案,完全放弃简单方法。

论文提出的Ada-GRPO用动态奖励公式破解困局:

其中 包含:

  • 多样性奖励:冷门解题法加分

  • 衰减因子:后期更重视准确性

训练过程曲线:传统方法后期只用长答案 vs Ada-GRPO保持多样性

这相当于告诉模型:“前期多尝试不同方法,找到规律后重点用靠谱的”。最终实现训练速度翻倍,且token用量减少30%-70%。

实验:少花力气反而更聪明?

在数学、常识、符号推理等23个数据集测试中:

  • 平均省30% token,极端任务省70%

  • 准确率与全程长答案的模型持平

  • 训练速度提升2倍

典型案例:

  • 常识题(如“花瓶底部叫什么”)用直球模式,token从500降到50,准确率不变

  • 奥数题自动切换长答案模式,正确率反超传统模型

不同规模模型在各类任务中的token用量对比
不同规模模型在各类任务中的token用量对比

备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦


http://www.hkcw.cn/article/HvHfkZZKEN.shtml

相关文章

如何使用 Elastic 检测恶意浏览器扩展

作者:Aaron Jewitt 当你的 CISO 问你某个特定浏览器扩展是否曾经被安装在任何工作站上时,你能多快给出正确的答案?恶意浏览器扩展是一个重大威胁,许多组织却无法管理或检测它们。本文介绍了 Elastic 信息安全团队如何使用 osquery…

[网页五子棋][匹配模式]创建房间类、房间管理器、验证匹配功能,匹配模式小结

文章目录 创建房间类创建房间类实现房间管理器 实现匹配器(3)验证匹配功能问题:匹配按钮不改变验证多开 小结 创建房间类 LOL,通过匹配的方式,自动给你加入到一个房间,也可手动创建游戏房间 这一局游戏,进行的“场所…

LangChain【3】之进阶内容

文章目录 说明一 LangChain Chat Model1.1 少量示例提示(Few-Shot Prompting)1.2 Few-Shot示例代码1.3 示例选择器(Eample selectors)1.4 ExampleSelector 类型1.5 ExampleSelector案例代码1.6 LangServe工具1.7 LangServe安装1.8 langchain项目结构1.9 …

LangChain-自定义Tool和Agent结合DeepSeek应用实例

除了调用LangChain内置工具外,也可以自定义工具 实例1: 自定义多个工具 from langchain.agents import initialize_agent, AgentType from langchain_community.agent_toolkits.load_tools import load_tools from langchain_core.tools import tool, …

探索JS数组新方法:

js数组新方法:Array.with()、Array.toSorted()、Array.toReversed() 和 Array.toSpliced() 在Javascript中数组作为引用类型,如果我们想在不修改原始数组的情况下执行splice, sort,reverse等方法,那么我们必须首先创建原始数组的副本&#x…

电子书阅读器:基于UDP的网络日志调试系统

目录 为什么要引入网络编程进行远程打印? 框架与管理 debug层结构 stdout.c netprint.c(重头戏) 明确两个问题:udp和server端的选择 核心机制 实现细节 debug_manager.c netprint_client.c 为什么要引入网络编程进行远程…

《HelloGitHub》第 110 期

兴趣是最好的老师,HelloGitHub 让你对开源感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、…

⼤模型驱动的DeepInsight Copilot在蚂蚁的技术实践

本文整理自潘兰天(蚂蚁数据智能团队数据分析平台技术专家)在DA数智大会2025上海站的演讲实录。 本文围绕AI技术在数据分析领域的应用及DeepInsight Copilot产品展开。DeepInsight是一款蚂蚁长期深耕数据分析领域的BI产品,本文首先介绍了DeepInsight Copi…

小黑大语言模型应用探索:langchain智能体构造源码demo搭建1(初步流程)

导入工具包 rom langchain_core.tools import BaseTool from typing import Sequence, Optional, List from langchain_core.prompts import BasePromptTemplate import re from langchain_core.tools import tool from langchain_core.prompts.chat import (ChatPromptTempla…

在大型中实施访问控制 语言模型

大家读完觉得有帮助记得关注!!! 抽象 在企业设置中,组织数据是隔离的、孤立的 并受到精心设计的访问控制框架的精心保护。 如果 LLM 对 siloed data serve 请求进行微调,用于下游任务, 来自具有不同访问权限…

边缘计算网关在管网压力远程调控中的通信协议配置

一、项目背景 在现代城市供水系统中,恒压供水是确保居民用水稳定的关键。传统的恒压供水系统通常依赖人工巡检和本地监控,这种方式存在实时性差、效率低、故障响应慢等问题。随着物联网技术的发展,某大型城市供水企业为了实现对供水系统的实…

51. N-Queens

目录 题目描述 方法一、回溯每次判断是否合法 方法二、回溯哈希 方法三、回溯位运算 题目描述 51. N-Queens 方法一、回溯每次判断是否合法 class Solution {vector<vector<string>> res;vector<string> chessboard; public:vector<vector<strin…

西蒙诺维奇-炮弹导体粗糙度模型揭秘

这篇论文的作者&#xff0c;“导体表面粗糙度建模&#xff1a;从”雪球“到”炮弹“&#xff0c;[1] 认为仅凭数据表不可能对传输线进行准确建模&#xff0c;并且似乎暗示&#xff0c;因为我事先测量了数据&#xff0c;所以我神奇地”调整“了 Rz 参数&#xff0c;以获得与 EDI…

VRRP 原理与配置:让你的网络永不掉线!

VRRP 原理与配置&#xff1a;让你的网络永不掉线&#xff01; 一. VRRP 是什么&#xff0c;为什么需要它&#xff1f;二. VRRP 的核心概念三. VRRP 的工作原理四. 华为设备 VRRP 配置步骤 &#xff08;主备模式&#xff09;4.1 拓扑示例4.2 &#x1f6e0; 配置步骤 五. VRRP 配…

【深度剖析】义齿定制行业数字化转型模式创新研究(上篇3:数字化转型动机分析)

数字化转型正在重塑义齿行业的生态格局,但也面临技术融合与模式变革的深层挑战。当前,义齿定制行业正处于从传统手工制造向全流程数字化制造转型的关键阶段。3D扫描、CAD/CAM(计算机辅助设计与制造)、3D打印等技术的广泛应用,显著提升了义齿制作的精度和效率。传统石膏模型…

RustDesk 搭建自建服务器并设置服务自启动

目录 0. 介绍 1. 事前准备 1.1 有公网 ip 的云服务器一台 1.2 服务端部署包 1.3 客户端安装包 2. 部署 2.1 服务器环境准备 2.2 上传服务端部署包 2.3 运行 pm2 3. 客户端使用 3.1 安装 3.2 配置 3.2.1 解锁网络设置 3.2.2 ID / 中级服务器 3.3 启动效果 > …

Python训练营打卡Day40(2025.5.30)

知识点回顾&#xff1a; 彩色和灰度图片测试和训练的规范写法&#xff1a;封装在函数中展平操作&#xff1a;除第一个维度batchsize外全部展平dropout操作&#xff1a;训练阶段随机丢弃神经元&#xff0c;测试阶段eval模式关闭dropout # 先继续之前的代码 import torch import …

《智慧医疗分级评价方法及标准(2025版)》征求意见函全面解读:人工智能医疗应用的评价体系与指南方向

引言 智慧医疗作为医疗行业数字化转型的重要方向,正在通过人工智能等先进技术重塑医疗服务模式和流程。随着人工智能技术在医疗领域的广泛应用,建立科学、规范的评价体系对于推动智慧医疗健康发展具有重要意义。近期,国家卫生健康委发布了《智慧医疗分级评价方法及标准(20…

碰一碰发视频系统--基于H5场景开发

#碰一碰发视频# 旨在构建一个基于移动网页&#xff08;H5&#xff09;的视频“碰传”交互系统&#xff0c;提供类似华为/苹果设备 NFC 轻碰分享的便捷体验。其核心技术依赖于移动端可用的近场通信&#xff08;NFC 或 H5 相关 API&#xff09;和可靠的媒体数据传输方案。实现细节…

京东热点缓存探测系统JDhotkey架构剖析

热点探测使用场景 MySQL 中被频繁访问的数据 &#xff0c;如热门商品的主键 IdRedis 缓存中被密集访问的 Key&#xff0c;如热门商品的详情需要 get goods$Id恶意攻击或机器人爬虫的请求信息&#xff0c;如特定标识的 userId、机器 IP频繁被访问的接口地址&#xff0c;如获取用…