摘要:在这项工作中,我们提出了第一个研究,探索推理时间缩放对表格推理任务的影响。 我们开发和评估了两种训练后策略来实现推理时间扩展:前沿模型推理轨迹的蒸馏和具有可验证奖励的强化学习(RLVR)。 对于蒸馏,我们引入了一个由DeepSeek-R1生成的大型推理跟踪数据集,我们用它来将LLM微调到Table-R1-SFT模型中。 对于RLVR,我们提出了特定于任务的可验证奖励函数,并应用GRPO算法来获得Table-R1-Zero模型。 我们在不同的表格推理任务中评估了我们的Table-R1系列模型,包括短格式问答、事实验证和自由格式问答。值得注意的是,Table-R1-Zero模型达到或超过了GPT-4.1和DeepSeek-R1的性能,而它只使用了7B参数的LLM。 它还展示了对于域外数据集的强大泛化能力。 广泛的消融和定性分析揭示了指令调整、模型架构选择和跨任务泛化的好处,以及在强化学习训练过程中基本表推理技能的出现。Huggingface链接:Paper page,论文链接:2505.23621
研究背景和目的
研究背景
随着大型语言模型(LLMs)在自然语言处理领域的飞速发展,其在复杂任务上的推理能力得到了显著提升。OpenAI的o系列模型和DeepSeek的R1模型等通过推理时间扩展(inference-time scaling)技术,展示了在生成推理链(chain-of-thought)以进行“思考”后再给出最终答案方面的强大能力。然而,这种技术在结构化依赖任务,尤其是表格推理任务上的应用仍然较少被探索。
表格推理任务要求模型能够解释多样化的单元格内容,对齐表格中的数据,并执行多步推理,包括聚合和数值操作。与纯文本任务相比,表格推理任务对模型提出了更高的要求,因为它们需要处理长而密集的结构化表格输入。尽管已有一些研究致力于提升LLMs在表格推理任务上的性能,但这些方法大多集中在特定任务的微调上,缺乏在推理时间扩展方面的系统探索。
研究目的
本研究旨在填补这一空白,成为第一个系统探索推理时间扩展在表格推理任务上应用的研究。具体而言,本研究有两个主要目的:
-
开发并评估推理时间扩展策略:开发并评估两种训练后策略,以实现表格推理任务上的推理时间扩展。这两种策略包括从前沿模型推理轨迹中蒸馏(distillation)和具有可验证奖励的强化学习(RLVR)。
-
提升表格推理性能:通过应用上述策略,提升LLMs在表格推理任务上的性能,并探索其泛化能力。期望通过本研究,能够推动表格推理技术的发展,使其在实际应用中发挥更大作用,如数据分析、科学报告生成和决策支持系统等。
研究方法
数据集构建
为了训练和评估Table-R1系列模型,本研究构建了一个包含三个代表性表格推理任务的数据集:
- 短格式表格问答(TQA):要求模型根据表格数据提供精确答案。
- 表格事实验证(TFV):要求模型判断给定陈述是否由表格内容支持。
- 自由格式表格问答(FF-TQA):要求模型根据表格信息生成开放式答案。
每个任务都从已建立的基准数据集中采样实例,并确保存在可验证的真相用于奖励计算,以符合RLVR范式。
模型训练策略
- Table-R1-SFT模型:
- 数据生成:使用DeepSeek-R1生成包含逐步推理过程和最终答案的长期推理(long CoT)响应。
- 数据过滤:应用自动化评估器过滤掉最终答案错误的实例,确保训练数据的质量。
- 模型微调:使用过滤后的高质量数据对LLM进行微调,得到Table-R1-SFT模型。
- Table-R1-Zero模型:
- 奖励设计:设计特定于任务的、可验证的奖励函数,包括准确性奖励和格式奖励。准确性奖励衡量模型输出的正确性,格式奖励鼓励模型遵循严格的响应格式。
- 强化学习:应用GRPO算法进行强化学习训练,得到Table-R1-Zero模型。在训练过程中,模型通过生成多个候选响应并接收奖励来优化其策略。
评估方法
- 基准数据集:使用测试集评估模型在域内(in-domain)的性能,并使用未见过的数据集评估其泛化能力。
- 评估指标:对于TQA任务,报告精确匹配(EM)准确率;对于TFV任务,使用分类准确率;对于FF-TQA任务,使用BLEU和ROUGE-L分数来衡量生成质量。
研究结果
域内性能
Table-R1系列模型在所有任务上均取得了显著提升。具体而言,Table-R1-Zero-8B在FeTaQA上获得了32.7的BLEU分数,显著超过了其他模型;在TabFact上达到了91.1的准确率,与领先模型相当;在WTQ和HiTab上分别达到了83.8和81.8的准确率,显示出强大的推理能力。
泛化能力
Table-R1系列模型在域外数据集上也展现出了强大的泛化能力。特别是在使用Qwen作为基础的模型中,Table-R1-Zero-7B在所有变体中表现出最佳的整体泛化能力。相比之下,监督微调(SFT)导致的泛化能力较弱,而基于Llama的模型初始化后的泛化效果也不如基于Qwen的模型。
训练动态分析
通过对训练动态的分析,发现指令调整(instruction tuning)在RLVR训练过程中提供了显著的好处。指令模型在整个训练过程中始终表现出比基础模型更高的准确性。此外,基础模型在训练初期经历了格式获取阶段,响应长度急剧下降,随后逐渐增加,而指令模型则表现出更为稳定和适度的响应长度增长。
推理能力边界
通过pass@k指标评估了模型的推理能力边界,发现RLVR训练显著提高了pass@k值。这表明RLVR不仅提高了模型在第一次尝试时获得正确答案的概率,还增强了模型在有限采样预算内探索多种有效推理路径的能力。
定性分析
通过对模型响应的定性分析,发现RLVR训练使模型不仅内化了R1风格的推理特征,还获得了对表格任务至关重要的特定表格推理能力。模型在推理轴上展现出向复杂、多步推理的明显进展,能够分解复杂查询为顺序子任务,明确概述中间步骤,并有时“重新思考”早期结论以进行检查或纠正错误。在表格特定轴上,模型在列感知推理、语义理解和算术及时间推理能力方面表现出显著改进。
研究局限
-
数据来源单一:SFT数据完全由DeepSeek-R1生成,可能限制了数据的多样性和质量。未来的研究可以探索结合其他推理LLM的输出,如QwQ-32B,以提高蒸馏性能和数据多样性。
-
模型初始化敏感:基于Llama-3.1-8B的模型在RLVR微调过程中表现出不稳定的训练动态,包括输出格式获取的不一致性和响应长度的显著波动。尽管指令调整的变体减轻了这些问题,但根本原因(如对初始化的敏感性、奖励稀疏性或优化超参数)仍需进一步探索。
-
评估指标局限性:尽管使用了多种评估指标,但仍可能存在某些方面的性能未被充分捕捉。未来的研究可以考虑引入更多维度的评估指标,以更全面地评估模型的性能。
未来研究方向
-
数据多样性增强:探索结合多种推理LLM的输出,以生成更加多样化和高质量的训练数据。这有助于提升模型的泛化能力和鲁棒性。
-
模型初始化优化:研究更稳定的模型初始化方法,以减少RLVR训练过程中的不稳定性。可以考虑使用预训练模型或结合多种预训练任务来提升模型的初始化性能。
-
多维度评估体系:构建更加全面和多维度的评估体系,以更准确地评估模型在表格推理任务上的性能。这可以包括引入人类评估、对抗性测试等方法,以发现模型在现有评估指标下未暴露的问题。
-
跨任务泛化研究:深入研究模型在不同表格推理任务之间的泛化能力,探索如何通过共享表示学习或迁移学习等技术来提升模型的跨任务泛化性能。
-
可解释性研究:提升模型的可解释性,使模型的推理过程更加透明和可信。这可以通过引入注意力机制、可视化技术或生成解释性文本等方法来实现。
-
实时推理优化:研究如何在保持高性能的同时,降低模型在推理阶段的计算资源和时间消耗。这可以通过模型压缩、量化或知识蒸馏等技术来实现,以推动表格推理技术在实时应用中的部署。
综上所述,本研究通过系统探索推理时间扩展在表格推理任务上的应用,提出了Table-R1系列模型,并展示了其在性能提升和泛化能力方面的显著优势。未来的研究可以在数据多样性、模型初始化、评估体系、跨任务泛化、可解释性和实时推理优化等方面进一步深入探索,以推动表格推理技术的发展和应用。