AdaCtrl:自适应可控Reasoning,可降10~90%推理长度!!

article/2025/7/22 13:15:59

摘要:现代大型推理模型通过运用复杂的推理策略展示了令人印象深刻的解决问题能力。然而,它们常常难以平衡效率和有效性,经常为简单问题生成不必要的冗长推理链。在本研究中,我们提出了AdaCtrl,这是一个新颖的框架,支持基于难度感知的自适应推理预算分配以及用户对推理深度的显式控制。AdaCtrl根据自我评估的问题难度动态调整推理长度,同时允许用户手动控制预算,以优先考虑效率或有效性。这是通过一个两阶段训练流程实现的:首先是一个冷启动微调阶段,以培养模型自我感知难度和调整推理预算的能力,随后是一个基于难度感知的强化学习(Reinforcement Learning, RL)阶段,该阶段根据模型在在线训练过程中不断发展的能力来完善其自适应推理策略,并校准其难度评估。为了实现直观的用户交互,我们设计了显式的长度触发标签,作为预算控制的自然接口。实证结果表明,AdaCtrl能够根据估计的难度调整推理长度。与同样包含微调和强化学习的标准训练基线相比,它在需要复杂推理的更具挑战性的AIME2024和AIME2025数据集上实现了性能提升,同时分别将响应长度减少了10.06%和12.14%;在只需要更简洁回答的MATH500和GSM8K数据集上,响应长度分别减少了62.05%和91.04%。此外,AdaCtrl还能够实现对推理预算的精确用户控制,从而提供满足特定需求的定制化回答。进一步的分析还揭示了AdaCtrl能够准确估计问题难度,并根据这些评估分配推理预算。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 长度触发标签

3.2 冷启动微调

3.3 基于难度感知的强化学习

3.4 推理阶段

四、实验结论

4.1 性能和效率提升

4.2 AdaCtrl 的可控性

4.3 难度估计准确性

五、总结


一、背景动机

论文题目:https://arxiv.org/pdf/2505.18822

论文地址:https://arxiv.org/pdf/2505.18822

现有推理模型(如 DeepSeek R1 和 OpenAI O1)在解决复杂问题时表现出色,但它们通常在简单问题上也会生成冗长的推理链,导致不必要的计算开销和延迟。尽管已有研究通过监督微调(SFT)和强化学习(RL)来优化推理效率,但这些方法大多只关注减少推理长度,而没有动态调整推理深度的能力,也无法让用户根据具体需求控制推理预算。

该文章提出了一种新的自适应和可控的推理框架AdaCtrl ,通过动态调整推理预算来平衡效率和效果。它通过两阶段训练流程使模型能够根据问题难度自适应调整推理长度,并通过长度触发标签为用户提供显式的推理预算控制。

二、核心贡献

  • AdaCtrl 框架:提出了一种新的框架,支持基于问题难度的自适应推理预算分配和用户对推理深度的显式控制。
  • 两阶段训练流程:设计了一个包含冷启动微调和基于难度感知的强化学习的两阶段训练流程,使模型能够根据自身能力评估问题难度,并据此调整推理预算。
  • 长度触发标签:引入了“[Easy]”和“[Hard]”两种长度触发标签,作为用户控制推理预算的自然接口。

三、实现方法

3.1 长度触发标签

AdaCtrl 引入了两种特殊的长度触发标签:“[Easy]”和“[Hard]”,作为控制推理预算的接口。

  • [Easy]:指示模型生成简短的推理过程,适用于简单问题。

  • [Hard]:指示模型生成详细的推理过程,适用于复杂问题。

  • 使用方式:在生成响应时,模型会根据问题的难度估计或用户指定的标签来选择合适的推理长度。用户可以通过在输入中添加这些标签来显式控制推理预算。

3.2 冷启动微调

冷启动微调阶段的目标是为模型提供初始能力,使其能够根据问题难度生成相应长度的推理轨迹。

  • 数据准备

    • 从 DeepMATH 数据集中选择简单问题(难度等级 ≤ 5)和复杂问题(难度等级 > 5)。

    • 对于简单问题,使用 Qwen2.5-7B-Instruct 模型生成简短的推理轨迹。

    • 对于复杂问题,使用强大的推理模型(如 Deepseek R1)生成详细的推理轨迹。

    • 筛选出正确答案的推理轨迹,分别标记为“[Easy]”和“[Hard]”。

  • 训练过程

    • 使用上述数据对模型进行监督微调(SFT),使模型能够根据长度触发标签生成相应长度的推理轨迹。

    • 这一阶段的目标是让模型学会在简单问题上生成简短的推理,在复杂问题上生成详细的推理。

3.3 基于难度感知的奖励设计

  • 结果准确性奖励(Outcome Accuracy Reward):评估生成响应的正确性。如果生成的答案正确,则奖励为 +1.0;否则为 -1.0。

  • 难度估计校准奖励(Difficulty Estimation Calibration Reward):通过多个 rollout 的准确性来校准模型对问题难度的估计。如果模型的 rollout 准确性超过预设阈值 δ,则将问题标记为“简单”;否则标记为“复杂”。奖励根据模型生成的长度触发标签与实际难度标签的一致性来计算。

  • 基于难度的长度奖励(Difficulty-Aware Length Reward):鼓励模型在简单问题上生成更短的响应,而在复杂问题上保持较长的推理链。对于标记为“[Easy]”的问题,奖励随着生成长度的增加而减少。

3.4 推理阶段

在推理阶段,AdaCtrl 支持三种模式

  • 自适应模式(Adaptive Mode):模型根据自身对问题难度的估计自动选择推理长度。

  • 简单模式(Easy Mode):用户指定“[Easy]”标签,模型生成简短的推理过程。

  • 复杂模式(Hard Mode):用户指定“[Hard]”标签,模型生成详细的推理过程。

四、实验结论

4.1 性能和效率提升

  • 性能提升

    • AdaCtrl 在 AIME2025 数据集上性能提升了 1.67%,在 MATH500 数据集上提升了 7.20%,在 GSM8K 数据集上提升了 2.05%。

    • 与标准 SFT + RL 基线相比,AdaCtrl 在 AIME2024 数据集上性能相当,但在其他数据集上均有所提升。

  • 响应长度减少

    • 在 AIME2024 和 AIME2025 数据集上,AdaCtrl 的响应长度分别减少了 10.06% 和 12.14%。

    • 在 MATH500 和 GSM8K 数据集上,响应长度分别减少了 62.05% 和 91.04%。

4.2 AdaCtrl 的可控性

  • 通过“[Easy]”和“[Hard]”标签,用户可以显式控制推理预算。

  • 在“[Easy]”模式下,AdaCtrl 在 AIME2024 和 AIME2025 数据集上的响应长度分别减少了 90.22% 和 94.31%。

  • 在“[Hard]”模式下,AdaCtrl 在 MATH500 和 GSM8K 数据集上的响应长度分别增加了 86.51% 和 489.15%。

4.3 难度估计准确性

AdaCtrl 在不同数据集上的长度触发标签分布与数据集的实际难度一致。

  • 在 AIME2024 和 AIME2025 数据集中,大部分问题被标记为“[Hard]”。

  • 在 MATH500 数据集中,76.2% 的问题被标记为“[Easy]”。

  • 在 GSM8K 数据集中,超过 99% 的问题被标记为“[Easy]”。

五、总结

AdaCtrl 提出了一种新的自适应和可控的推理框架,通过动态调整推理预算来平衡效率和效果。它通过两阶段训练流程使模型能够根据问题难度自适应调整推理长度,并通过长度触发标签为用户提供显式的推理预算控制。实验结果表明,AdaCtrl 在多个基准数据集上均表现出色,能够显著减少响应长度,同时保持或提升性能。


http://www.hkcw.cn/article/kgSJajRIOi.shtml

相关文章

格式工厂 FormatFactory v5.20.便携版 ——多功能媒体文件转换工具 长期更新

—————【下 载 地 址】——————— 【​本章下载一】:https://pan.xunlei.com/s/VORWF3Q7D0eCVV06LHbzheD-A1?pwdjikz# 【​本章下载二】:https://pan.quark.cn/s/8ee59ed83658 【百款黑科技】:https://ucnygalh6wle.feishu.cn/wiki/…

贾冰瘦到脱相 网友:压力给到沈腾 减肥风潮席卷娱乐圈

5月31日,演员贾冰的妻子发布了一段视频,祝福大家端午节快乐,并配文“从此我家多了个瘦子”。在两人合影中,贾冰明显瘦了很多。评论区里大家都在问他是如何瘦下来的,甚至有人觉得他瘦得都快认不出来了。对此,贾冰妻子回复说,主要是通过少吃(一天一顿)和运动来减肥的。贾…

多地机关食堂端午向社会开放 节日共享美食

端午假期,全国多地政府机关食堂面向社会公众开放。重庆市荣昌区政府机关食堂在5月31日中午如约向游客开放,首日吸引了超过3000名游客前来体验。该食堂特别推出了61元的“六一”家庭套餐,包括荣昌卤鹅、黄凉粉等特色菜品,并新增了粽子和儿童喜欢的薯条、鸡腿、鸡块等小吃,让…

vscode实用配置

前端开发安装插件: 1.可以更好看的显示文件图标 2.用户快速打开文件 使用步骤:在html文件下右键点击 open with live server 即可 刷力扣: 安装这个插件 还需要安装node.js即可

武夷山耗资千万建不锈钢天池?假 AI谣言混淆视听

近日,武夷山市委网信办工作人员在日常网络舆情巡查中发现,有网民在某网络平台上发布信息,称无人机航拍到武夷山耗资千万修建的“不锈钢天池”。经武夷山国家公园福建管理局核实,该文章为不实信息。文中提到的“不锈钢天池”并不位于武夷山国家公园范围内,而是位于重庆武陵…

战国足前印尼集训着重练习定位球 强化任意球战术

印尼队在巴厘岛的集训中加强了定位球战术的训练。此前客场与国足的交手中,印尼队曾利用任意球完成破门。这次集训,克鲁伊维特招入了维克里、萨尤里兄弟、利利帕利和普特拉等前锋,这些球员速度快、脚下技术好,能够丰富球队的进攻套路,并在前场积极逼抢,阻滞国足的防守反击…

网页自动化部署(webhook方法)

实现步骤: 宝塔安装宝塔WebHook 2.5插件。 github 上配置网页仓库(或可在服务器的网页根目录clone)。 配置宝塔WebHook 2.5 添加hook脚本; 编辑添加syncJC脚本; #!/bin/bash # 定义网站根目录 WEBROOT"/www…

Redis持久化

文章目录 持久化1、RDB1)触发机制2)bgsave命令的运行流程3)RDB文件的处理4)RDB的优缺点 2、AOF1)开启AOF2)AOF工作流程3)AOF同步策略4)重写机制5)重写机制的运行流程 持久…

循环流化床锅炉关键技术设计与优化路径

摘要 循环流化床锅炉(CFB)作为高效清洁燃烧技术的代表,在燃煤发电、生物质利用等领域具有显著优势。本文从设计原理出发,详细分析物料循环系统、燃烧室结构、受热面布置等核心设计要素,并提出针对不同燃料特性的优化方…

PyTorch-Transforms的使用(二)

对图像进行处理 安装open cv ctrlP 看用法 ToTensor的使用 常见的Transforms 归一化的图片 两个长度为三的数组,分别表示三个通道的平均值和标准差 Resize() Compose() 合并执行功能,输入进去一个列表&a…

【萌笔趣棋】网页五子棋项目测试报告

目录 一.项目介绍 (一)项目简介 (二)功能介绍 (三)页面展示 1.注册页面 2.登录页面 3.游戏大厅页面 4.游戏房间页面(对战) 二.功能测试 (一)出现的…

乌克兰袭击俄轰炸机基地画面曝光 大胆军事行动震动俄乌

乌克兰官员周日宣布,乌克兰军队对俄罗斯境内深处的多个军用机场进行了大规模无人机袭击。这些机场是用于进行空袭的战略轰炸机基地,这次行动被认为是自俄乌冲突爆发以来乌克兰军队最大胆的一次军事行动。此次代号为“蛛网”的袭击行动经过一年半的准备。乌克兰无人机的目标包…

卡友护送青藏线司机骨灰回家 爱心跨越2400公里

河南46岁的卡车司机常志荣在青海五道梁地区因高原缺氧离世,家中还有六个孩子需要抚养。为了省下一罐氧气的钱,他在出发前只购买了一罐氧气。五道梁地区海拔4665米,含氧量不足海平面的一半,自然环境极其恶劣。得知消息后,多名卡车司机自费远赴2000多公里护送常志荣的骨灰及…

北京全市上汛责任人名单公示 防汛抗旱任务明确

今日天气早晨有轻雾,白天晴转多云,西部北部有分散性阵雨或雷阵雨,北风一级转三四级,阵风六七级,最高气温31℃;夜间多云转晴,北风三级左右转一级,最低气温15℃。白天阵风明显,户外注意防风。尾号限行无昨日8时北京全市上汛,为做好2025年防汛抗旱工作,切实履行防汛抗旱…

Oracle递归/树状查询

目录 1.递归与LEVEL简介 2.往子项找 3.往父项找 4.练习题 练习1:找出BLAKE的直系下属有哪些? 练习2 5.递归的其他应用——生成连续的数字或日期 1.递归与LEVEL简介 递归:从顶层到下一层级,一层一层递归去找。 递归里…

美国发生针对性恐怖袭击 亲以色列团体遇袭

美国媒体6月1日报道,科罗拉多州博尔德市当天发生一起针对亲以色列团体活动的袭击事件,造成至少5人受伤。当地警方已经封锁事发街区并疏散数个邻近街区,一名男子被逮捕。美国联邦调查局将这一事件定性为“有针对性的恐怖袭击”。责任编辑:zhangxiaohua

巴媒称以军炸毁加沙中部清真寺 以色列暂无回应

据巴勒斯坦《圣城报》报道,当地时间6月2日凌晨,以色列军方飞机炸毁了加沙地带中部代尔拜拉赫的一座清真寺。目前,以色列方面尚未对此事作出回应。责任编辑:zhangxiaohua

InfluxDB 高级分析实战:预测、技术指标与异常检测全指南

InfluxDB 不仅是强大的时序数据存储引擎,更是企业构建智能分析系统的核心平台。本文全面解析如何利用 InfluxDB 内置函数与 Python 生态实现: ✅ ​​预测分析​​:从简单季节性预测(HOLT_WINTERS)到复杂模型集成&…

图解AI三大核心技术:RAG、大模型、智能体【推荐文章】

大模型中的Transformer与混合专家(MoE) 5种大模型微调技术 传统RAG与Agentic RAG对比 5种经典的智能体设计模式 5大文本分块策略 智能体系统的5个等级 传统RAG vs HyDE RAG vs Graph RAG KV caching 转载的原文链接:图解AI三大核心技术&#…

命令行部署金仓读写分离集群

有大佬会问,图形化方式部署多流畅,干嘛自虐非要倒腾命令行方式,那是因为我们的环境要通过VPN再到堡垒机最后才能xshell登录,而且VPN、堡垒机不定时频繁超时断开。 KingbaseES读写分离集群简介 在多数据库实例的热备模式下&#…