【AI论文】表R1:表格推理的推理时间扩展

article/2025/6/28 8:12:57

摘要:在这项工作中,我们提出了第一个研究,探索推理时间缩放对表格推理任务的影响。 我们开发和评估了两种训练后策略来实现推理时间扩展:前沿模型推理轨迹的蒸馏和具有可验证奖励的强化学习(RLVR)。 对于蒸馏,我们引入了一个由DeepSeek-R1生成的大型推理跟踪数据集,我们用它来将LLM微调到Table-R1-SFT模型中。 对于RLVR,我们提出了特定于任务的可验证奖励函数,并应用GRPO算法来获得Table-R1-Zero模型。 我们在不同的表格推理任务中评估了我们的Table-R1系列模型,包括短格式问答、事实验证和自由格式问答。值得注意的是,Table-R1-Zero模型达到或超过了GPT-4.1和DeepSeek-R1的性能,而它只使用了7B参数的LLM。 它还展示了对于域外数据集的强大泛化能力。 广泛的消融和定性分析揭示了指令调整、模型架构选择和跨任务泛化的好处,以及在强化学习训练过程中基本表推理技能的出现。Huggingface链接:Paper page,论文链接:2505.23621

研究背景和目的

研究背景

随着大型语言模型(LLMs)在自然语言处理领域的飞速发展,其在复杂任务上的推理能力得到了显著提升。OpenAI的o系列模型和DeepSeek的R1模型等通过推理时间扩展(inference-time scaling)技术,展示了在生成推理链(chain-of-thought)以进行“思考”后再给出最终答案方面的强大能力。然而,这种技术在结构化依赖任务,尤其是表格推理任务上的应用仍然较少被探索。

表格推理任务要求模型能够解释多样化的单元格内容,对齐表格中的数据,并执行多步推理,包括聚合和数值操作。与纯文本任务相比,表格推理任务对模型提出了更高的要求,因为它们需要处理长而密集的结构化表格输入。尽管已有一些研究致力于提升LLMs在表格推理任务上的性能,但这些方法大多集中在特定任务的微调上,缺乏在推理时间扩展方面的系统探索。

研究目的

本研究旨在填补这一空白,成为第一个系统探索推理时间扩展在表格推理任务上应用的研究。具体而言,本研究有两个主要目的:

  1. 开发并评估推理时间扩展策略:开发并评估两种训练后策略,以实现表格推理任务上的推理时间扩展。这两种策略包括从前沿模型推理轨迹中蒸馏(distillation)和具有可验证奖励的强化学习(RLVR)。

  2. 提升表格推理性能:通过应用上述策略,提升LLMs在表格推理任务上的性能,并探索其泛化能力。期望通过本研究,能够推动表格推理技术的发展,使其在实际应用中发挥更大作用,如数据分析、科学报告生成和决策支持系统等。

研究方法

数据集构建

为了训练和评估Table-R1系列模型,本研究构建了一个包含三个代表性表格推理任务的数据集:

  1. 短格式表格问答(TQA):要求模型根据表格数据提供精确答案。
  2. 表格事实验证(TFV):要求模型判断给定陈述是否由表格内容支持。
  3. 自由格式表格问答(FF-TQA):要求模型根据表格信息生成开放式答案。

每个任务都从已建立的基准数据集中采样实例,并确保存在可验证的真相用于奖励计算,以符合RLVR范式。

模型训练策略
  1. Table-R1-SFT模型
    • 数据生成:使用DeepSeek-R1生成包含逐步推理过程和最终答案的长期推理(long CoT)响应。
    • 数据过滤:应用自动化评估器过滤掉最终答案错误的实例,确保训练数据的质量。
    • 模型微调:使用过滤后的高质量数据对LLM进行微调,得到Table-R1-SFT模型。
  2. Table-R1-Zero模型
    • 奖励设计:设计特定于任务的、可验证的奖励函数,包括准确性奖励和格式奖励。准确性奖励衡量模型输出的正确性,格式奖励鼓励模型遵循严格的响应格式。
    • 强化学习:应用GRPO算法进行强化学习训练,得到Table-R1-Zero模型。在训练过程中,模型通过生成多个候选响应并接收奖励来优化其策略。
评估方法
  1. 基准数据集:使用测试集评估模型在域内(in-domain)的性能,并使用未见过的数据集评估其泛化能力。
  2. 评估指标:对于TQA任务,报告精确匹配(EM)准确率;对于TFV任务,使用分类准确率;对于FF-TQA任务,使用BLEU和ROUGE-L分数来衡量生成质量。

研究结果

域内性能

Table-R1系列模型在所有任务上均取得了显著提升。具体而言,Table-R1-Zero-8B在FeTaQA上获得了32.7的BLEU分数,显著超过了其他模型;在TabFact上达到了91.1的准确率,与领先模型相当;在WTQ和HiTab上分别达到了83.8和81.8的准确率,显示出强大的推理能力。

泛化能力

Table-R1系列模型在域外数据集上也展现出了强大的泛化能力。特别是在使用Qwen作为基础的模型中,Table-R1-Zero-7B在所有变体中表现出最佳的整体泛化能力。相比之下,监督微调(SFT)导致的泛化能力较弱,而基于Llama的模型初始化后的泛化效果也不如基于Qwen的模型。

训练动态分析

通过对训练动态的分析,发现指令调整(instruction tuning)在RLVR训练过程中提供了显著的好处。指令模型在整个训练过程中始终表现出比基础模型更高的准确性。此外,基础模型在训练初期经历了格式获取阶段,响应长度急剧下降,随后逐渐增加,而指令模型则表现出更为稳定和适度的响应长度增长。

推理能力边界

通过pass@k指标评估了模型的推理能力边界,发现RLVR训练显著提高了pass@k值。这表明RLVR不仅提高了模型在第一次尝试时获得正确答案的概率,还增强了模型在有限采样预算内探索多种有效推理路径的能力。

定性分析

通过对模型响应的定性分析,发现RLVR训练使模型不仅内化了R1风格的推理特征,还获得了对表格任务至关重要的特定表格推理能力。模型在推理轴上展现出向复杂、多步推理的明显进展,能够分解复杂查询为顺序子任务,明确概述中间步骤,并有时“重新思考”早期结论以进行检查或纠正错误。在表格特定轴上,模型在列感知推理、语义理解和算术及时间推理能力方面表现出显著改进。

研究局限

  1. 数据来源单一:SFT数据完全由DeepSeek-R1生成,可能限制了数据的多样性和质量。未来的研究可以探索结合其他推理LLM的输出,如QwQ-32B,以提高蒸馏性能和数据多样性。

  2. 模型初始化敏感:基于Llama-3.1-8B的模型在RLVR微调过程中表现出不稳定的训练动态,包括输出格式获取的不一致性和响应长度的显著波动。尽管指令调整的变体减轻了这些问题,但根本原因(如对初始化的敏感性、奖励稀疏性或优化超参数)仍需进一步探索。

  3. 评估指标局限性:尽管使用了多种评估指标,但仍可能存在某些方面的性能未被充分捕捉。未来的研究可以考虑引入更多维度的评估指标,以更全面地评估模型的性能。

未来研究方向

  1. 数据多样性增强:探索结合多种推理LLM的输出,以生成更加多样化和高质量的训练数据。这有助于提升模型的泛化能力和鲁棒性。

  2. 模型初始化优化:研究更稳定的模型初始化方法,以减少RLVR训练过程中的不稳定性。可以考虑使用预训练模型或结合多种预训练任务来提升模型的初始化性能。

  3. 多维度评估体系:构建更加全面和多维度的评估体系,以更准确地评估模型在表格推理任务上的性能。这可以包括引入人类评估、对抗性测试等方法,以发现模型在现有评估指标下未暴露的问题。

  4. 跨任务泛化研究:深入研究模型在不同表格推理任务之间的泛化能力,探索如何通过共享表示学习或迁移学习等技术来提升模型的跨任务泛化性能。

  5. 可解释性研究:提升模型的可解释性,使模型的推理过程更加透明和可信。这可以通过引入注意力机制、可视化技术或生成解释性文本等方法来实现。

  6. 实时推理优化:研究如何在保持高性能的同时,降低模型在推理阶段的计算资源和时间消耗。这可以通过模型压缩、量化或知识蒸馏等技术来实现,以推动表格推理技术在实时应用中的部署。

综上所述,本研究通过系统探索推理时间扩展在表格推理任务上的应用,提出了Table-R1系列模型,并展示了其在性能提升和泛化能力方面的显著优势。未来的研究可以在数据多样性、模型初始化、评估体系、跨任务泛化、可解释性和实时推理优化等方面进一步深入探索,以推动表格推理技术的发展和应用。


http://www.hkcw.cn/article/SJJEdTxGyu.shtml

相关文章

学习STC51单片机25(芯片为STC89C52RCRC)

每日一言 生活就像弹簧,你弱它就强,你强它就弱,别轻易认输。 ESP8266作为路由器模式(AP模式)也就是在局域网内可以有服务器的作用 那么我们需要将pc作为设备进行连接ESP的发射出来的WIFE 叫做这个AI啥的 也有可能叫做…

基于Android的拼车系统的设计与实现

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

美媒发现:中国持续上升,美国跌成负值

美媒公布最新民调:全球对中国好感度上升,美国形象转而跌入负区间值美国Axios新闻网2日援引晨间咨询公司(Morning Consult)最新民调数据称,全球对中国的好感度持续上升,而对美国的好感度则跌入负区间值,美国贸易政策正以牺牲其自身利益为代价,助推中国崛起。Axios新闻网…

马克龙笑容满面邀妻子与球队合影 甜蜜互动成焦点

马克龙笑容满面邀妻子与球队合影 甜蜜互动成焦点。5月28日,法国总统马克龙结束了对越南的访问后,与妻子布里吉特一同抵达印度尼西亚,开启正式访问行程。在越南访问期间,一段布里吉特“打脸”马克龙的视频引发了热议,尽管马克龙解释这只是两人间的玩笑,但这一事件仍让他显…

FFmpeg移植教程(linux平台)

目录 第三方源码编译三部曲关于 configure 的说明 FFmpeg 移植流程获取源码方法一:git 远程克隆方法二:官网下载压缩包解压 配置安装 第三方源码编译三部曲 Linux平台下有许多开源的第三方库和服务,这些开源代码一般都符合GNU-autotools编码…

ERP管理系统:Java+Vue,含源码及文档,涵盖采购、销售、库存等业务,优化企业运营

前言: 在当今竞争激烈的商业环境中,企业需要高效、精准地管理各个业务环节,以提升运营效率、降低成本、增强市场竞争力。ERP管理系统作为一种集成化的管理工具,将企业的各个核心业务模块整合在一个统一的平台上,实现了…

shiro使用详解

01-Shiro 实战教程 1.权限的管理 1.1 什么是权限管理 基本上涉及到用户参与的系统都要进行权限管理,权限管理属于系统安全的范畴,权限管理实现 对用户访问系统的控制 ,按照安全规则或者 安全策略 控制用户可以访问而且只能访问自己被授权的资…

ACTF2025-web-eznote-wp

附件审计 app.js const express require(express) const session require(express-session) // 会话管理中间件 const { randomBytes } require(crypto) // 生成加密随机数 const fs require(fs) // 文件系统操作 const spawn require(child_process) // 执行外部命令&a…

CSS 3D 变换中z-index失效问题

CSS 3D 变换中 z-index 失效问题 1. z-index 失效了 在 CSS 中,z-index 通常用于控制元素的层叠顺序,数值越大,元素越靠前显示。在 3D 变换(如 rotateX、translateZ) 中使用 z-index 时,可能会发现z-inde…

能源行业的网络安全:一场无声的战争

想象一下,你家的电力突然中断,冰箱里的食物开始变质,空调停止运转,甚至连手机充电都成了奢望。这不是科幻电影,而是网络攻击可能给我们的生活带来的真实影响。能源行业,这个维系现代社会运转的命脉&#xf…

ESP32-C3 + W5500 + MicroPython 编译记录

前言 我本来是想连个网,结果连上了无数个坑…… 在这个项目中,我的目标是用 ESP32-C3 W5500 作为有线网关,运行 MicroPython。听上去简单,实操下来却是一场跨平台 编译环境 烧录流程的大混战。 为了避免你也在这些坑里打转&…

项目管理进阶:56页大型IT项目管理实践经验分享【附全文阅读】

此文档为大型IT项目管理实践经验分享目录概览,主要包含以下核心内容: 1. **整体介绍**:阐述了项目管理在IT领域的重要性,特别是针对产品经理与开发人员间的冲突和挑战,提出通过项目管理方法来提升工作效率。目标受众为…

一种在SQL Server中传递多行数据的方法

这是一种比较偷懒的方法,其实各种数据库对Json 支持的很好。sql server 、oracle都不错。所以可以直接传json declare 这是一个json varchar(max) set 这是一个json{"data":[{"code":"1","name":"啥1"},{"…

SOC-ESP32S3部分:25-HTTP请求

飞书文档https://x509p6c8to.feishu.cn/wiki/KL4RwxUQdipzCSkpB2lcBd03nvK HTTP(Hyper Text Transfer Protocol) 超文本传输协议,是一种建立在 TCP 上的无状态连接,整个基本的工作流程是客户端发送一个 HTTP 请求,说明…

【音视频】H265 NALU分析

1 H265 概述 H264 与 H265 的区别 传输码率:H264 由于算法优化,可以低于 2Mbps 的速度实现标清数字图像传送;H.265 High Profile 可实现低于 1.5Mbps 的传输带宽下,实现 1080p 全高清视频传输。 编码架构:H.265/HEVC…

第十二节:第四部分:集合框架:List系列集合:LinkedList集合的底层原理、特有方法、栈、队列

LinkedList集合的底层原理 LinkedList集合的应用场景之一 代码:掌握LinkedList集合的使用 package com.itheima.day19_Collection_List;import java.util.LinkedList; import java.util.List;//掌握LinkedList集合的使用。 public class ListTest3 {public static …

用 Whisper 打破沉默:AI 语音技术如何重塑无障碍沟通方式?

网罗开发 (小红书、快手、视频号同名) 大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等…

实现Cursor + Pycharm 交互

效果演示: 直接可以在cursor或Pycharm中点击右键点击,然后就可以跳转到另一个应用的对应位置了 使用方法: 分别在两个应用中安装插件【Switch2Cursor Switch2IDEA,这两个插件分别安装在 IDEA 和 Cursor 中】: Switc…

【Linux】进程控制-上

> 🍃 本系列为Linux的内容,如果感兴趣,欢迎订阅🚩 > 🎊个人主页:【小编的个人主页】 >小编将在这里分享学习Linux的心路历程✨和知识分享🔍 >如果本篇文章有不足,还请多多包涵&a…

QT之头像剪裁效果实现

文章目录 源码地址,环境:QT5.15,MinGW32位效果演示导入图片设置剪裁区域创建剪裁小窗口重写剪裁小窗口的鼠标事件mousePressEventmouseMoveEventmouseReleaseEvent 小窗口移动触发父窗口的重绘事件剪裁效果实现 源码地址,环境&…