qwen3解读

article/2025/6/23 12:34:35

1. 模型架构

重点:

  • 思维模式和非思维模式这两种不同的操作模式集成到一个模型中。这样可以让用户在这些模式间切换,而不是在不同模型间切换。
  • 多阶段的后培训方法:增强推理和非推理模式。将基础模型和人的偏好结合。
    在这里插入图片描述
    预训练阶段:
  1. 通用知识学习:通过大规模数据训练模型理解语言结构、常识和通用知识,为后续阶段奠定基础。
  2. 推理能力强化:引入知识密集型数据(如专业领域文本、高质量合成数据),强化模型对复杂推理任务的适应性。
  3. 长上下文扩展:通过特定优化技术(动态位置编码 (YARN)、高效注意力机制 (DCA、稀疏注意力))提升模型对长序列的处理效率,并结合人工清洗与合成数据进一步强化能力。

位置编码调整:动态扩展与长度外推
技术原理 :传统位置编码(如绝对位置编码)在预训练时固定上下文长度,难以直接扩展到更长序列。Qwen3 采用 动态位置编码调整技术 (如 YARN),允许模型在推理时动态扩展上下文长度。
实现方式 :
在训练阶段,通过 长度外推 (Length Extrapolation)技术,使模型能够适应远超训练数据长度的上下文(例如从 32,768 token 推理时扩展至 128K token)。
使用 相对位置编码 或 旋转位置编码 (RoPE)等策略,增强模型对长序列位置信息的敏感性 。

注意力机制改进:降低计算复杂度
长序列处理的核心挑战是注意力机制的计算复杂度呈平方级增长(O(n²)),Qwen3 通过以下技术优化:
双块注意力(Dual Chunk Attention, DCA) :
将长序列划分为多个固定长度的“块”(Chunk),在块内计算局部注意力,块间则通过稀疏或跨块注意力减少计算量。 例如,对 32,768 token 的长上下文,模型可能先分块处理局部信息,再通过全局注意力聚合关键信息 。
稀疏注意力(Sparse Attention) :
通过稀疏化注意力矩阵(如仅关注关键位置或固定跨度的位置),大幅降低内存占用和计算成本 。
结合自适应带宽注意力 (Adaptive Bandwidth Attention, ABF),动态调整注意力覆盖的上下文范围,避免冗余计算 。

后训练阶段:

目标:
在这里插入图片描述
后训练流程:
在这里插入图片描述

  1. 长思维链冷启动:构建高质量推理骨架。
    使用 QwQ-32B (Qwen3的子模型)生成高质量的长思维链示例(Chain-of-Thought, CoT),覆盖数学、代码、逻辑推理等场景 。
    结合人工清洗数据 (Qwen-72B标注的高质量推理样本),过滤错误推理路径。
  2. 推理强化学习:优化多步骤任务的连贯性。
    基于 强化学习 (Reinforcement Learning, RL)框架,利用奖励模型(Reward Model)对生成的推理路径进行评估和反馈 。采用 GRPO 更新模型参数。
    参考解读文章:Qwen3模型架构、训练方法梳理
    重点强化数学、代码等领域的推理能力,确保多步骤任务的连贯性
  3. 思维模式融合:统一深度与快速模式。
    混合训练 :在训练数据中混合长思维链(深度模式)和直接响应(快速模式)样本 。
    用户控制机制 :通过指令(如 /think 或 /no think)动态切换模式 。
  4. 通用强化学习:对齐人类偏好并提升效率。
    监督微调 (SFT):使用人工标注的指令-响应数据,训练模型遵循用户指令 。
    人类反馈强化学习 (RLHF):通过大规模偏好数据优化生成结果,减少冗余输出 。

2. 训练数据量

数据总量比Qwen2.5翻了一倍,支持的语言种类更是增加了两倍多。
在这里插入图片描述

3. 性能表现

Qwen3 通过参数精简、架构创新和高效训练 ,实现了“小参数,高性能”的目标。其 MoE 模型 Qwen3-30B-A3B 的激活参数量仅为竞品的 10%,但性能更优;而 Dense 模型 Qwen3-1.7B 的参数量仅为 DeepSeek-R1 的 1/3,性能却与之相当 。
这种高效性使其在端侧部署、多语言任务及长文本处理中具有显著优势。


http://www.hkcw.cn/article/yfCJVusNah.shtml

相关文章

用127.0.0.1访问VMware虚拟机中间件

文章目录 前言一、虚拟机安装、插件安装二、改虚拟机配置1.更改虚拟机使用的是 NAT 模式2.编辑 VMware 的 NAT 设置并添加端口转发 总结至此大功告成了!!! 前言 docker 安装中间件很方便,平时使用windows作开发,如果想快速安装中间件,那么首…

【大模型部署】mac m1本地部署 ChatGLM3-6B 超详细教程

本人环境:macOS 15.5 (Sonoma) - Apple M1 / 16 G 目标:在 mac m1 16G 上 完全离线 的本地模型目录上,跑通官方 ChatGLM3-6B 目录 背景 & 踩坑记录 准备工作 新建 Conda 环境并安装依赖 关键环境变量 运行 composite_demo 常见报错与…

评标专家随机抽选系统-建设方案——仙盟创梦IDE

政策要求 抽选记录保存 专辑库管理 系统统计 抽选打印 系统分级管理 项目管理 系统分级管理 集团公司管理 专家补抽 评标专家随机抽选 1、系统分级管理合规 符合《数据安全法》第二十一条(分类分级制度),安全按照不同职级,配置权…

2.5/Q2,Charls最新文章解读

文章题目:Trajectories of depressive symptoms and risk of chronic liver disease: evidence from CHARLS DOI:10.1186/s12876-025-03943-7 中文标题:抑郁症状的轨迹和慢性肝病风险:来自 CHARLS 的证据 发表杂志:BM…

win1011安装WinGet和Windows Terminal

前言 winget是微软推出的类似Ubuntu apt 的包管理器。安装winget建议一同安装微软推出的代替conhost.exe的新版命令提示符工具Windows Terminal。 安装 Windows Terminal 微软商店 github 安装后以管理员打开老版命令提示符,上方任务栏右键-默认值-终端-默认终端…

深 入 剖 析 单 链 表:从 原 理 到 实 战 应 用

深 入 剖 析 单 链 表:从 原 理 到 实 战 应 用 顺 序 表 的 问 题单 链 表单 链 表 与 顺 序 表 区 别相 关 概 念链 表 定 义单 链 表 定 义存 储 结 构 单 链 表 的 操 作 实 现代 码 全 貌 与 功 能 介 绍单 链 表 的 功 能 说 明代 码 效 果 展 示代 码 详 解S…

【LLM相关知识点】关于LLM项目实施流程的简单整理(一)

【LLM相关知识点】关于LLM项目实施流程的简单整理(一) 文章目录 【LLM相关知识点】关于LLM项目实施流程的简单整理(一)零、学习计划梳理:结合ChatGPT从零开始学习LLM & 多模态大模型一、大模型相关应用场景和头部企…

Vue 核心技术与实战day07

1. vuex概述 2. 构建 vuex [多组件数据共享] 环境 <template><div id"app"><h1>根组件- {{ title }}- {{ count }}</h1><input :value"count" input"handleInput" type"text"><Son1></Son1>…

【android bluetooth 案例分析 04】【Carplay 详解 3】【Carplay 连接之车机主动连手机】

1. 背景 在前面的文章中&#xff0c;我们已经介绍了 carplay 在车机中的角色划分&#xff0c; 并实际分析了 手机主动连接车机的案例。 感兴趣可以 查看如下文章介绍。 【android bluetooth 案例分析 04】【Carplay 详解 1】【CarPlay 在车机侧的蓝牙通信原理与角色划分详解】…

【stm32开发板】单片机最小系统原理图设计

一、批量添加网络标签 可以选择浮动工具中的N&#xff0c;单独为引脚添加网络标签。 当芯片引脚非常多的时候&#xff0c;选中芯片&#xff0c;右键选择扇出网络标签/非连接标识 按住ctrl键即可选中多个引脚 点击将引脚名称填入网络名 就完成了引脚标签的批量添加 二、电源引…

Linux --OS和PCB

目录 认识冯诺依曼系统 操作系统概念与定位 1.概念 2.设计OS的目的 3.OS的核心功能 4.系统调⽤和库函数概念 深⼊理解进程概念&#xff0c;了解PCB 1.基本概念与基本操作 2.描述进程-PCB 基本概念 task_ struct 的内容分类 认识冯诺依曼系统 在计算机中小到个人的笔…

2025最新版在Windows上安装Redis(仅限开发环境)

使用一位GitHub的博主做的Redis-Windows,截止现在更新到8.0.2 Releases redis-windows/redis-windows GitHub https://github.com/redis-windows/redis-windows/releases 我使用6.2.18版本做例子,使用6.2以上版本,因为一些语法,比如lpop,rpop,zrange,zdiff集合操作比旧版有…

[python]Prophet‘ object has no attribute ‘stan_backend‘解决方法

测试环境&#xff1a; prophet1.1.4 写代码&#xff1a; from prophet import Prophet modelProphet() print(123) 在anaconda prompt里面没有报错&#xff0c;但是打开jupyter notebook会报错Prophet object has no attribute stan_backend&#xff0c;据此猜测jupyter应该…

Python----目标检测(《基于区域提议网络的实时目标检测方法》和Faster R-CNN)

一、《基于区域提议网络的实时目标检测方法》 1.1、基本信息 标题&#xff1a;Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 作者&#xff1a;任少卿&#xff08;中国科学技术大学、微软研究院&#xff09;、何凯明&#xff08;微软研究…

流媒体基础解析:从压缩到传输的基本了解

流媒体&#xff0c;又称为流式媒体&#xff0c;已成为现代网络视频传输的核心技术。其基本原理是将连续的影像和声音信息经过精心设计的压缩&#xff08;编码&#xff09;处理后&#xff0c;妥善存放在网站服务器上。随后&#xff0c;这些压缩后的数据通过网络高效传输至终端用…

【MFC】如何设置让exe的控制台不会跟着exe退出而退出

在 Windows 下&#xff0c;MFC 程序&#xff08;如 echo.exe&#xff09;如果用 AllocConsole 创建了控制台窗口&#xff0c;默认情况下&#xff0c;当主程序&#xff08;exe&#xff09;退出时&#xff0c;控制台窗口也会自动关闭。这是操作系统的行为&#xff0c;不能直接阻止…

图像风格迁移笔记

图像风格迁移 最早实现风格迁移的原理:损失函数内容损失函数风格损失函数融合内容损失函数与风格损失函数可以融合多种风格图片的效果同一个网络可以生成多种风格图像的效果效果改进最早实现风格迁移的原理: 最早出现的论文的实现想法是将风格图像、内容图像、白噪声图像输入…

浏览器隐私:原理与检测方法

引言 浏览器信号和详细信息是在线识别用户和防止欺诈的关键。这些数据包括用户代理字符串、JavaScript设置和屏幕分辨率等信息&#xff0c;有助于区分不同的浏览器。然而&#xff0c;一些用户会有意修改这些信号&#xff0c;使用用户代理欺骗等方法来隐藏自己的身份。虽然一些…

python:在 PyMOL 中如何查看和使用内置示例文件?

参阅&#xff1a;开源版PyMol安装保姆级教程 百度网盘下载 提取码&#xff1a;csub pip show pymol 简介: PyMOL是一个Python增强的分子图形工具。它擅长蛋白质、小分子、密度、表面和轨迹的3D可视化。它还包括分子编辑、射线追踪和动画。 可视化示例‌&#xff1a;打开 PyM…

设计模式——建造者设计模式(创建型)

摘要 本文详细介绍了建造者设计模式&#xff0c;这是一种创建型设计模式&#xff0c;旨在将复杂对象的构建过程与其表示分离&#xff0c;便于创建不同表示。文中阐述了其设计意图&#xff0c;如隐藏创建细节、提升代码可读性和可维护性&#xff0c;并通过构建电脑的示例加以说…