SoftThinking:让模型学会模糊思考,同时提升准确性和推理速度!!

article/2025/6/22 18:42:43

摘要:人类的认知通常涉及通过抽象、灵活的概念进行思考,而不是严格依赖离散的语言符号。然而,当前的推理模型受到人类语言边界的限制,只能处理代表语义空间中固定点的离散符号嵌入。这种离散性限制了推理模型的表达能力和上限潜力,常常导致推理路径的探索不完整,因为标准的思维链(Chain-of-Thought,CoT)方法依赖于每一步采样一个符号。在本研究中,我们提出了“软思考”(Soft Thinking)方法,这是一种无需训练的方法,通过在连续的概念空间中生成软的、抽象的概念符号来模拟类似人类的“软”推理。这些概念符号是通过符号嵌入的概率加权混合创建的,形成了一个连续的概念空间,从而实现平滑的过渡和超越传统离散边界的更丰富表示。本质上,每个生成的概念符号都封装了相关离散符号的多种含义,隐式地探索了各种推理路径,从而有效地汇聚到正确答案。在多样化的数学和编程基准测试中的实证评估一致证明了“软思考”的有效性和效率,与标准的思维链方法相比,其通过率(pass@1)准确率最高提高了2.48个百分点,同时符号使用量减少了高达22.4%。定性分析进一步揭示,“软思考”的输出仍然具有高度的可解释性和可读性,突显了“软思考”打破基于离散语言推理固有瓶颈的潜力。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 概念标记与连续概念空间

3.2 推理过程

3.3 Cold Stop机制

四、实验结论

4.1 实验设置

4.2 性能提升

4.3 解释性分析

五、总结


一、背景动机

论文题目:Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

论文地址:https://arxiv.org/pdf/2505.15778

人类的认知过程通常涉及通过抽象、流动的概念进行思考,而非仅仅依赖离散的语言符号。然而,现有的推理模型受限于人类语言的边界,只能处理离散的词嵌入,这限制了模型的表达能力和推理潜力。

链式思考(CoT)是目前一种有效的多步推理技术,通过生成中间推理步骤来逐步解决问题。但其存在两大局限性:一是受限于离散的自然语言符号,无法有效表示和操作抽象概念;二是其单向、序列化的推理方式容易导致模型在高不确定性的任务中走向错误路径,降低性能和效率。

基于人类的思维的灵活性,如我们会在脑中模糊地考虑多种可能性(比如同时想到“苹果、水果、红色”),最后再整理成语言。该论文指出,学会这种“模糊思考”才是突破的关键。

二、核心贡献

1、提出了无需训练的Soft Thinking方法,通过在连续概念空间中生成软的、抽象的概念标记(concept tokens)来模拟人类的“软”推理过程。这些概念标记通过词嵌入的概率加权混合形成,能够跨越传统的离散边界,实现更丰富的语义表示和更有效的推理路径探索。

2、尽管Soft Thinking在推理过程中使用了连续的概念空间,但其输出结果仍然具有高度的可解释性和可读性,体现了该方法能够在不牺牲可解释性的情况下突破离散语言推理的瓶颈。

三、实现方法

3.1 概念标记与连续概念空间

概念标记的定义:在Soft Thinking中,每个中间推理步骤生成的不是一个离散的单词标记(token),而是一个概率分布向量,称为概念标记(concept token)。这个概率分布向量表示模型对下一步所有可能标记的预测概率。

连续概念空间的定义:连续概念空间是由所有词嵌入的凸组合形成的。具体来说,假设 E 是词嵌入矩阵,e(k) 是词汇表中第 k 个词的嵌入向量,那么连续概念空间 C 是所有概率加权的词嵌入混合的集合

3.2 推理过程

1、中间推理步骤:在Soft Thinking中,模型的中间推理步骤不再是离散的标记选择,而是生成一个概念标记 ct。在下一步中,模型将这个概念标记注入到LLM中,通过概率加权的方式计算下一个概念标记的嵌入向量,该方法允许模型在推理过程中保留对多个可能路径的探索。

2、推理结束条件:当某个概念标记的最可能标记是推理结束标记(如 <\think>)时,中间推理过程停止,模型切换到生成最终答案的阶段。最终答案的生成仍然使用标准的离散标记采样。

3.3 Cold Stop机制

  • 动机:由于Soft Thinking在推理过程中使用了模型训练中未见过的概念标记,这使得模型处于分布外(Out-of-Distribution, OOD)状态。这可能导致模型在长推理链或输入分布与训练数据差异较大时出现不稳定或生成崩溃的情况。

  • 实现方式:Cold Stop机制通过监测模型输出分布的熵来动态停止中间推理。具体步骤如下

    • 在每个推理步骤中,计算当前概念标记的熵:

    • 如果熵小于某个阈值 τ,则增加低熵步数计数器;否则重置计数器。

    • 如果低熵步数计数器达到某个阈值 k,则插入推理结束标记 <\think>,终止推理过程。

  • 作用:Cold Stop机制可以避免模型在OOD情况下进行不必要的计算,从而提高推理效率并防止模型崩溃。

四、实验结论

4.1 实验设置

在八个数学和编程基准测试任务上对Soft Thinking进行了评估,涵盖了数学500、AIME 2024、GSM8K、GPQA-Diamond等数学任务,以及HumanEval、MBPP、LiveCodeBench等编程任务。实验使用了QwQ-32B、DeepSeek-R1-DistillQwen-32B和DeepSeek-R1-Distill-Llama-70B等不同架构和规模的LLMs。

4.2 性能提升

  • Soft Thinking在所有评估的数学和编程基准测试中均显著提高了pass@1准确率,同时减少了生成长度
  • 在数学推理任务中,QwQ-32B模型的平均pass@1准确率从83.84%(CoT Thinking)提高到86.32%(Soft Thinking),而生成长度减少了11.6%。

  • 在编程任务中,QwQ-32B的平均Pass@1准确率提升了0.48个百分点,QwQ-32B的生成长度减少了16.1%。

4.3 解释性分析

通过比较标准CoT和Soft Thinking在解决乘法问题时的输出,发现Soft Thinking生成的解释更简洁(96个标记对比157个标记),且具有高可读性和可解释性。

此外,通过可视化Soft Thinking的概率分布,展示了模型在推理过程中如何整合路径探索,从而增强推理的灵活性和深度。

五、总结

文章提出了Soft Thinking方法,通过在连续概念空间中进行推理,显著提升了大模型在数学和编程任务中的推理性能和效率。该方法无需额外训练,能够保持输出的可解释性,并通过实验验证了其在多种基准测试中的有效性。

由于引入了概念标记,使模型具有分布外的特性,故Soft Thinking在面对长推理链或输入分布变化时可能会遇到稳定性问题。未来的研究可以探索通过训练策略使模型适应概念标记,从而提高其在软思考范式下的鲁棒性和泛化能力。


http://www.hkcw.cn/article/AHSjaZdAFa.shtml

相关文章

【LUT技术专题】图像自适应3DLUT

3DLUT开山之作: Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time&#xff08;2020 TPAMI &#xff09; 专题介绍一、研究背景二、图像自适应3DLUT方法2.1 前置知识2.2 整体流程2.3 损失函数的设计 三、实验结果四、局限五、总结…

【计算机网络】 ARP协议和DNS协议

文章目录 【计算机网络】ARP协议和DNS协议&#xff08;知识点详细&#xff09;一、ARP协议&#xff08;地址解析协议&#xff09;1. **协议功能**2. **ARP报文结构**3. **工作流程**&#xff08;1&#xff09;**正向ARP&#xff08;已知IP&#xff0c;求MAC&#xff09;**&…

普中STM32F103ZET6开发攻略(一)

各位看官老爷们&#xff0c;点击关注不迷路哟。你的点赞、收藏&#xff0c;一键三连&#xff0c;是我持续更新的动力哟&#xff01;&#xff01;&#xff01; 目录 普中STM32F103ZET6开发攻略 1. GPIO端口实验——点亮LED灯 1.1 实验目的 1.2 实验原理 1.3 实验环境和器材…

Azure DevOps 管道部署系列之二IIS

本博客旨在提供如何使用 Azure DevOps YAML 管道部署到虚拟机上的 IIS 的实用指南。 开始之前,您需要做好以下准备: 您拥有要部署的服务器的访问权限以及 PowerShell 的管理员访问权限。您拥有要部署的远程服务器的互联网访问权限。您拥有在服务器上安装 .NET Core 托管包的…

Linux命令之ausearch命令

一、命令简介 ausearch 是 Linux 审计系统 (auditd) 中的一个实用工具,用于搜索审计日志中的事件。它是审计框架的重要组成部分,可以帮助系统管理员分析系统活动和安全事件。 二、使用示例 1、安装ausearch命令 Ubuntu系统安装ausearch命令,安装后启动服务。 root@testser…

2025山东CCPC题解

文章目录 L - StellaD - Distributed SystemI - Square PuzzleE - Greatest Common DivisorG - Assembly Line L - Stella 题目来源&#xff1a;L - Stella 解题思路 签到题&#xff0c;因为给出的字母不是按顺序&#xff0c;可以存起来赋其值&#xff0c;然后在比较。 代码…

复数三角不等式简介及 MATLAB 演示

复数三角不等式简介及 MATLAB 演示 1. 复数三角不等式简介 复数三角不等式&#xff08;Complex Triangle Inequality&#xff09;是复数的一种重要性质&#xff0c;它类似于普通的三角不等式&#xff0c;但适用于复数空间。具体来说&#xff0c;复数三角不等式可以描述复数之…

学术合作交流

想找志同道合的科研小伙伴&#xff01;研究方向包括&#xff1a;计算机视觉&#xff08;CV&#xff09;、人工智能&#xff08;AI&#xff09;、目标检测、行人重识别、行人搜索、虹膜识别等。欢迎具备扎实基础的本科、硕士及博士生加入&#xff0c;共同致力于高质量 SCI 期刊和…

2025-05-31 Python深度学习10——模型训练流程

文章目录 1 数据准备1.1 下载与预处理1.2 数据加载 2 模型构建2.1 自定义 CNN 模型2.2 GPU加速 3 训练配置3.1 损失函数3.2 优化器3.3 训练参数 4 训练循环4.1 训练模式 (model.train())4.2 评估模式 (model.eval()) 5 模型验证 本文环境&#xff1a; Pycharm 2025.1Python 3.1…

十五、STM32的TIM(六)(PWM驱动舵机)

介绍&#xff1a;本章节主要讲解如何在 STM32C8T6 上使用 PWM 驱动舵机。通过按键输入控制&#xff0c;输出以 PWM 信号调整舵机转动角度&#xff0c;从而实现对舵机的精准控制。 目录 一、接线图 二、相关参数的计算 三、相关代码的编写 四、程序现象 一、接线图 二、相关…

C语言指针完全指南:从入门到精通(上)

目录 一、内存和指针 1.1 指针的使用场景 二、指针变量和地址 2.1 取地址符(&) 2.2指针变量和解引用操作符(*) 2.2.1 指针变量 2.3 指针变量的大小 三、指针变量类型的意义 3.2 指针-整数 ​编辑 四、指针计算 五、const修饰指针 5.1 const修饰变量 1.2 const修饰…

Kafka数据怎么保障不丢失

在分布式消息系统中&#xff0c;数据不丢失是核心可靠性需求之一。Apache Kafka 通过生产者配置、副本机制、持久化策略、消费者偏移量管理等多层机制保障数据可靠性。以下从不同维度解析 Kafka 数据不丢失的核心策略&#xff0c;并附示意图辅助理解。 一、生产者端&#xff1a…

Win10秘笈:两种方式修改网卡物理地址(MAC)

Win10秘笈&#xff1a;两种方式修改网卡物理地址&#xff08;MAC&#xff09; 在修改之前&#xff0c;可以先确定一下要修改的网卡MAC地址&#xff0c;查询方法有很多种&#xff0c;比如&#xff1a; 1、在设置→网络和Internet→WLAN/以太网&#xff0c;如下图所示。 2、在控…

Angularjs-Hello

1 关于Angularjs 最近因为项目需要又要做这个&#xff0c;所以简单复习下。其实这个大概7&#xff0c;8年前就用过&#xff0c;当时做了几个简单页面觉得太简单就还是回去做嵌入式了。按照互联网技术的进化速度&#xff0c;本来以为早死在 沙滩上了&#xff0c;没想到现在还在坚…

红外遥控(外部中断)

目录 1.红外遥控简介 通信方式&#xff1a; 红外LED波长&#xff1a; 通信协议标准&#xff1a; 2.硬件电路 发送部分1&#xff1a; 内部元件介绍&#xff1a; 工作原理&#xff1a; 为什么要以38KHZ亮灭&#xff1f; 电路图&#xff1a; 发送部分2&#xff1a; 电…

leetcode hot100刷题日记——33.二叉树的层序遍历

解题总结二维vector的初始化方法 题目描述情况1&#xff1a;不确定行数和列数情况2&#xff1a;已知行数和列数情况3&#xff1a;已知行数但不知道列数情况4&#xff1a;已知列数但不知道行数 题目描述 解答&#xff1a;用队列 思路都差不多&#xff0c;我觉得对于我自己来说&a…

GitToolBox 插件安装与配置指南

GitToolBox 插件安装与配置指南 GitToolBox GitToolBox IntelliJ plugin 项目地址: https://gitcode.com/gh_mirrors/gi/GitToolBox 1. 项目基础介绍和主要编程语言 项目基础介绍 GitToolBox 是一个专为 JetBrains 家族 IDE&#xff08;如 IntelliJ IDEA、PyCharm 等&…

开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-结构化输出(三)

一、前言 在人工智能技术迅猛发展的今天,高效推理框架与强大语言模型的结合正不断突破应用边界。vLLM作为新一代高性能推理引擎,凭借其创新的PagedAttention技术和内存优化能力,为大规模语言模型部署提供了全新可能。 本文将聚焦vLLM框架与QWen3-8B这一国产开源大模型的深度…

史上最全 Git 图文教程(非常详细)零基础入门到精通,收藏这一篇就够了

戳上方蓝字“Java知音”关注我 Git安装 安装 1.先去官网下载这个软件, 准备安装到本电脑中 https://git-scm.com/ 2.根据自己电脑系统下载此软件到本机 Windows 系统直接下载 .exe 文件即可&#xff0c;macOS 系统使用 Homebrew 命令行安装&#xff0c;终端输入 git --versi…

GitHub学生认证申请

想要免费使用Copilot&#xff0c;申请学生认证可以免费使用。在申请过程中&#xff0c;踩了些坑。记录一下供大家参考 认证有效期 默认时长&#xff1a;首次认证成功后&#xff0c;学生权益&#xff08;如 GitHub Pro 权限和 Student Developer Pack&#xff09;的有效期一般为…