【AI论文】R2R:通过小型与大型模型之间的令牌路由高效导航发散推理路径

article/2025/8/13 20:46:29

摘要:大型语言模型(LLMs)以巨大的推理开销为代价,实现了令人印象深刻的推理能力,这带来了巨大的部署挑战。 尽管蒸馏的小语言模型(SLM)显著提高了效率,但由于它们无法遵循LLM的推理路径,因此性能受到影响。 幸运的是,我们发现只有一小部分标记真正在LLM和SLM之间发散推理路径。 大多数生成的代币要么完全相同,要么表现出中性的差异,例如缩写或表达上的微小变化。 基于这一见解,我们引入了罗马之路(R2R),这是一种神经令牌路由方法,有选择地仅针对这些关键的、路径发散的令牌使用LLM,同时将大多数令牌生成留给SLM。 我们还开发了一个自动数据生成管道,该管道可以识别不同的标记并生成标记级路由标签来训练轻量级路由器。 我们应用R2R将DeepSeek家族的R1-1.5B和R1-32B模型结合起来,并在具有挑战性的数学、编码和问答基准上进行评估。 R2R的平均激活参数大小为5.6B,其准确率是R1-7B的1.6倍,甚至超过了R1-14B模型。 与R1-32B相比,它在性能相当的情况下实现了2.8倍的时钟加速,在测试时间缩放效率方面达到了帕累托前沿。 我们的代码可以在Github。Huggingface链接:Paper page,论文链接:2505.21600

研究背景和目的

研究背景

近年来,大型语言模型(LLMs)在各种任务中展现出了强大的能力,特别是在复杂的推理任务上。然而,这些强大的能力是以巨大的推理开销为代价的,这给模型的部署带来了显著的挑战。为了应对这一挑战,研究者们开始探索如何通过蒸馏技术创建小语言模型(SLMs),这些SLMs参数较少,生成效率更高,能够模拟LLMs的推理行为。然而,尽管SLMs在效率上有了显著提升,但它们在推理路径上往往与LLMs存在分歧,导致性能下降。例如,在AIME基准测试中,R1-1.5B SLM与R1-32B LLM相比,在45%的问题上提供了不同的最终答案,准确率下降了4.8倍。

进一步的研究发现,SLMs和LLMs在生成令牌时,大多数情况下预测是相同的,性能差距主要源于累积误差:在部分响应出现关键差异后,它们的推理路径开始逐渐偏离。这表明,只有一小部分令牌真正导致了推理路径的分歧。因此,一个自然的研究问题是:SLMs是否能够通过仅替换发散的令牌来跟随LLMs的推理路径? 如果能够解决这个问题,我们就可以在大多数生成步骤中利用SLMs的高效性,同时保留LLMs高质量推理的优势,从而在测试时间缩放效率上实现更好的性能-效率权衡。

研究目的

本研究旨在开发一种名为罗马之路(R2R)的神经令牌路由方法,通过选择性地在SLMs生成过程中使用LLMs来纠正那些关键、路径发散的令牌,从而在保持高质量推理的同时提高生成效率。具体来说,我们的研究目的包括:

  1. 设计一种自动数据生成管道:用于识别发散令牌,并生成令牌级路由标签,以训练轻量级路由器。
  2. 开发一种神经令牌路由器:在SLMs生成过程中,根据路由器的预测,选择性地将发散令牌路由到LLMs进行纠正。
  3. 在具有挑战性的数学、编码和QA基准上评估R2R的性能:验证其在提高生成效率的同时,能否保持或提升推理质量。

研究方法

1. 数据收集与预处理

为了训练神经令牌路由器,我们需要大量的路由标签数据。这些数据包括LLMs和SLMs在相同上下文中生成的令牌序列,以及每个令牌是否应该被路由到LLMs的标签。我们通过以下步骤生成这些数据:

  • 生成LLMs响应:使用LLMs(如R1-32B)为给定的问题生成响应,作为“黄金”推理路径。
  • SLMs预填充:使用SLMs(如R1-1.5B)对相同的问题进行预填充,生成部分响应序列。
  • 令牌差异识别:比较LLMs和SLMs生成的令牌序列,识别出不同的令牌。
  • 继续生成与验证:对于每个不同的令牌,我们分别从LLMs和SLMs的预测继续生成完整的响应序列,并使用另一个LLMs作为验证器来判断这些继续生成的序列是否在语义上等价。如果不等价,则标记该令牌为发散令牌。
2. 神经令牌路由器设计

我们设计了一个轻量级的五层前馈网络(FFN)作为神经令牌路由器。该路由器接受SLMs的输出日志、令牌嵌入和最后层的隐藏状态作为输入,输出一个二元分类概率,指示当前令牌是否偏离了LLMs的推理路径。路由器的训练目标是最小化交叉熵损失,通过反向传播算法更新路由器的参数。

3. 推理过程中的路由策略

在推理过程中,我们采用了一种即时路由策略。对于每个生成的令牌,SLMs首先进行预测,然后路由器根据SLMs的输出预测该令牌是否应该被路由到LLMs。如果路由器的预测概率超过预设的阈值,则使用LLMs来纠正该令牌;否则,使用SLMs的预测。

研究结果

1. 性能提升

我们在AIME、GPQA-Diamond和LiveCodeBench等具有挑战性的基准上评估了R2R的性能。实验结果表明,R2R在平均激活参数大小为5.6B的情况下,准确率比R1-7B高出1.6倍,甚至超过了R1-14B模型。与R1-32B相比,R2R在性能相当的情况下实现了2.8倍的时钟加速,显著推进了测试时间缩放效率的帕累托前沿。

2. 路由效率

通过分析路由器的行为,我们发现R2R在回复阶段路由到LLMs的令牌明显减少,这符合直觉,因为经过内部思考后,回复本身更加直接,要求较低。此外,R2R在每个思考过程的开始和结束时更依赖于LLMs,这反映了初始令牌设定思考方向,而结束令牌决定是否结束思考、分支到替代方案或继续深入推理的直觉。

3. 消融研究

我们通过消融研究验证了R2R设计的有效性。实验结果表明,将路由目标更改为所有不同的令牌都会导致准确性显著下降(1.4倍),这证实了仅将发散令牌路由到LLMs对于在减少成本的同时保持高准确性至关重要。此外,去除SLMs日志或令牌嵌入等输入特征也会导致路由准确性大幅下降,进一步强调了这些特征在路由器中的重要性。

研究局限

尽管R2R在提高生成效率的同时保持了高质量的推理,但本研究仍存在一些局限性:

  1. 采样策略限制:当前的路由策略假设了贪心采样。探索替代采样策略可能会进一步提高R2R的通用性。
  2. 系统级优化需求:为了充分实现R2R的理论成本效益,需要进行更多的专用系统级优化。
  3. 数据集多样性:尽管我们在多个基准上评估了R2R的性能,但这些基准主要涵盖了数学、编码和QA任务。未来研究可以探索R2R在其他类型任务上的表现。

未来研究方向

基于本研究的结果和局限性,未来的研究可以关注以下几个方向:

  1. 探索替代采样策略:除了贪心采样外,还可以探索其他采样策略(如束搜索、top-k采样等)对R2R性能的影响。
  2. 系统级优化:开发更高效的系统级实现,以充分利用R2R的潜力。例如,可以通过优化KV缓存更新、减少LLMs和SLMs之间的通信开销等方式来提高推理速度。
  3. 扩展到其他任务类型:将R2R应用于更多类型的任务(如自然语言生成、对话系统等),以验证其通用性和有效性。
  4. 结合其他模型压缩技术:探索将R2R与其他模型压缩技术(如量化、剪枝等)相结合,以进一步提高模型的效率和性能。
  5. 可解释性研究:研究R2R的路由决策背后的原因,提高其可解释性,从而帮助用户更好地理解和信任模型。

总之,本研究通过引入R2R方法,为在保持高质量推理的同时提高大型语言模型的生成效率提供了一种新的思路。未来的研究可以进一步探索R2R的潜力,并推动其在更多实际应用中的部署。


http://www.hkcw.cn/article/pCYDLLcPQb.shtml

相关文章

学习日记-day20-6.1

完成目标&#xff1a; 知识点&#xff1a; 1.集合_Collections集合工具类 方法:static <T> boolean addAll(Collection<? super T> c, T... elements)->批量添加元素 static void shuffle(List<?> list) ->将集合中的元素顺序打乱static <T>…

区块链可投会议CCF B--EDBT 2026 截止10.8 附录用率

Conference&#xff1a;EDBT: 29th International Conference on Extending Database Technology CCF level&#xff1a;CCF B Categories&#xff1a;数据库&#xff0f;数据挖掘&#xff0f;内容检索 Year&#xff1a;2026 Conference time&#xff1a;24th March - 27th…

蓝光过滤APP:护眼小助手,守护您的视力健康

在数字时代&#xff0c;手机和平板电脑已成为我们生活中不可或缺的工具。无论是工作、学习还是娱乐&#xff0c;长时间使用这些设备已成为常态。然而&#xff0c;长时间盯着屏幕不仅会导致眼睛疲劳&#xff0c;还可能对视力造成不可逆的损害。蓝光过滤APP正是为了解决这一问题而…

AAA基础配置

文章目录 组网需求组网拓扑实验步骤测试结果配置文件 组网需求 为组网安全&#xff0c;经常会使用AAA技术&#xff0c;本次以CE12800交换机Window为例&#xff0c;实现AAA本地认证登录 组网拓扑 实验步骤 配置接口IP&#xff0c;连通终端进入AAA视图配置用户名密码配置账户权…

基于Dify实现各类报告文章的智能化辅助阅读

大家在日常工作中经常需要阅读或审核各类报告、纪要、文章等材料,但经常由于时间有限,无法完整的阅读全文,因此就需要类似于秘书或者助手角色来帮助整理出报告的主要内容,观点和支撑信息等,这些需求恰恰是目前AI大模型的强项,因此本次就基于dify的工作流实现单个报告材料…

实验:基于SpringBoot+MyBatis-Plus实现文章列表增删改查

目录 实验内容前言一、添加新的依赖二、配置连接MySQL数据库三、创建实体类以及Mapper、Service和Controller三层架构POJOMapperServiceIServiceServiceImpl Controller 四、添加配置类、响应类和全局异常处理类五、根据接口文档编写控制器方法并测试接口1.新增文章接口1.1 基本…

CS144 - Lecture 2

CS144 - Lecture 1 TCP 这里就简单讲了一下它的基本性质&#xff0c;没啥好说的 UDP 提供不可靠的传输服务&#xff0c;我们的 DNS 服务和 DHCP 都是用的 UDP 协议。 对于 DNS 我们只是单纯地向 DNS 服务器发送域名&#xff0c;然后返回一个 IP&#xff0c;如果还需要建立…

Go中MAP底层原理分析

MAP底层原理分析 参考 https://golang.design/go-questions/map/principalmap | Golang 中文学习文档 先来看一下map结构体&#xff0c;&#xff08;runtime.hmap结构体就是代表着 go 中的map&#xff0c;与切片一样map的内部实现也是结构体&#xff09; type hmap struct {/…

第十六章 EMQX黑名单与连接抖动检测

系列文章目录 第一章 总体概述 第二章 在实体机上安装ubuntu 第三章 Windows远程连接ubuntu 第四章 使用Docker安装和运行EMQX 第五章 Docker卸载EMQX 第六章 EMQX客户端MQTTX Desktop的安装与使用 第七章 EMQX客户端MQTTX CLI的安装与使用 第八章 Wireshark工具的安装与使用 …

构建系统maven

1 前言 说真的&#xff0c;我是真的不想看构建了&#xff0c;因为真的太多了。又多又乱。Maven、Gradle、Make、CMake、Meson、Ninja&#xff0c;Android BP。。。感觉学不完&#xff0c;根本学不完。。。 但是没办法最近又要用一下Maven&#xff0c;所以咬着牙再简单整理一下…

java CountDownLatch‌

CountDownLatch是用于线程同步的工具类&#xff0c;主要作用是让当前线程等待其他线程完成操作后再继续执行。 示例代码&#xff1a; import java.util.concurrent.CountDownLatch;private static void testCountDownLatch() {int taskNum 5;CountDownLatch latch new Count…

[yolov11改进系列]基于yolov11引入上下文锚点注意力CAA的python源码+训练源码

【CAA介绍】 本文记录的是基于CAA注意力模块的RT-DETR目标检测改进方法研究。在远程遥感图像或其他大尺度变化的图像中目标检测任务中&#xff0c;为准确提取其长距离上下文信息&#xff0c;需要解决大目标尺度变化和多样上下文信息时的不足的问题。CAA能够有效捕捉长距离依赖…

【Java基础】Java入门教程

文章目录 一、Java开发环境概述☕ Java开发全景架构&#x1f4e6; JDK (Java Development Kit)&#x1f5a5;️ IDE (集成开发环境)&#x1f504; 工作流关系 二、JDK下载与安装2.1 下载JDK2.2 安装JDK 三、环境变量配置3.1 Windows配置3.2 macOS/Linux配置为当前用户配置环境变…

通过openpyxl在excel中插入散点图

实现代码 # -*- coding: utf-8 -*- """ Created on Sat May 31 23:30:12 2025author: anyone """from openpyxl import load_workbook from openpyxl.chart import ScatterChart, Reference, Series from openpyxl.chart.series import SeriesL…

零基础安装 Python 教程:从下载到环境配置一步到位(支持 VSCode 和 PyCharm)与常用操作系统操作指南

零基础安装 Python 教程&#xff1a;从下载到环境配置一步到位&#xff08;支持 VSCode 和 PyCharm&#xff09;与常用操作系统操作指南 本文是一篇超详细“Python安装教程”&#xff0c;覆盖Windows、macOS、Linux三大操作系统的Python安装方法与环境配置&#xff0c;包括Pyt…

数据结构第6章 图(竟成)

第 6 章 图 【考纲内容】 1.图的基本概念 2.图的存储及基本操作&#xff1a;(1) 邻接矩阵法&#xff1b;(2) 邻接表法&#xff1b;(3) 邻接多重表、十字链表 3.图的遍历&#xff1a;(1) 深度优先搜索&#xff1b;(2) 广度优先搜索 4.图的基本应用&#xff1a;(1) 最小 (代价) 生…

Microsoft Fabric - 尝试一下Data Factory一些新的特性(2025年5月)

1.简单介绍 Microsoft Fabric是微软提供的一个数据管理和分析的统一平台&#xff0c;感觉最近的新特性也挺多的。 Data Factory是Microsoft Fabric的一个功能模块&#xff0c;也是一个cloud service。Data Factory可以和多种数据源进行连接&#xff0c;同时提供了data movemen…

思科设备网络实验

一、 总体拓扑图 图 1 总体拓扑图 二、 IP地址规划 表格 1 接口地址规划 设备名称 接口/VLAN IP 功能 PC0 VLAN580 10.80.1.1 访问外网 PC1 VLAN581 10.80.2.1 访问外网 PC2 Fa0 20.80.1.100 端口镜像监控流量 PC3 VLAN585 10.80.6.1 远程登陆多层交换机0…

《机器学习数学基础》补充资料:韩信点兵与拉格朗日插值法

本文作者&#xff1a;卓永鸿 19世纪的伟大数学家高斯&#xff0c;他对自己做的数学有非常高的要求&#xff0c;未臻完美不轻易发表。于是经常有这样的情况&#xff1a;其他也很厉害的数学家提出自己的工作&#xff0c;高斯便拿出自己的文章说他一二十年前就做出来了&#xff0…

Go 即时通讯系统:日志模块重构,并从main函数开始

重构logger 上次写的logger.go过于繁琐&#xff0c;有很多没用到的功能&#xff1b;重构后只提供了简洁的日志接口&#xff0c;支持日志轮转、多级别日志记录等功能&#xff0c;并采用单例模式确保全局只有一个日志实例 全局变量 var (once sync.Once // 用于实现…