deepseek原理和项目实战笔记2 -- deepseek核心架构

article/2025/7/5 13:32:06

混合专家(MoE)

​​混合专家(Mixture of Experts, MoE)​​ 是一种机器学习模型架构,其核心思想是通过组合多个“专家”子模型(通常为小型神经网络)来处理不同输入,从而提高模型的容量和效率。MoE的关键特点是​​动态激活​​:对于每个输入,仅调用部分相关的专家进行计算,而非全部,从而在保持模型规模的同时降低计算成本。
MoE架构是一种创新的模型架构,通过引入多个“专家网络”来提升模型的表达能力和计算效率。在MoE架构中,多个专家网络被独立设计为处理不同的特定任务或特定特征,模型根据输入数据的特点动态选择部分专家{L-End}参与计算,而不是同时激活所有专家网络。这种“按需计算”的方式显著减少了资源消耗,同时提升了模型的灵活性和任务适配能力。MoE的核心思想是通过动态路由机制,在每次推理或训练中只激活一部分专家,从而在大规模模型中实现参数规模的扩展,而不会显著增加计算开销。

MoE的优势与意义

MoE架构的引入为大规模模型解决了参数扩展与计算效率之间的矛盾,在以下几个方面形成了优势。
(1)参数规模的扩展:MoE架构允许模型拥有超大规模的参数量,但每次计算中只需要激活一小部分参数,从而大幅提升模型的表达能力。
(2)高效资源利用:通过动态选择专家,MoE架构避免了计算资源的浪费,同时节省了显存和计算成本。
(3)任务适配能力增强:不同的专家网络可以针对不同任务进行优化,使模型在多任务环境中具备更强的适应性。
(4)分布式训练的友好性:MoE架构天然适配分布式计算环境,通过将不同的专家网络分布到多个计算节点,显著提升了并行计算效率。

在这里插入图片描述


http://www.hkcw.cn/article/PgbHnhfbyc.shtml

相关文章

迈向分布式智能:解析MCP到A2A的通信范式迁移

智能体与外部世界的桥梁之言: 在深入探讨智能体之间的协作机制之前,我们有必要先厘清一个更基础的问题:**单个智能体如何与外部世界建立连接?** 这就引出了我们此前介绍过的 **MCP(Model Context Protocol&…

TCP/IP协议精华总结pdf分享

hi ,大家好,应小伙伴们的要求,上次分享了个人的一些学习和职场经验,其中网络协议PDF文档是我之前学习协议的时候总结一些精华知识,网络属于基本功,是互联网必备知识,我深信掌握好核心20%知识&am…

齐次变换矩阵与运动旋量的指数映射

在三维空间中,刚体的位姿(位置和姿态)可以通过齐次变换矩阵进行描述。齐次变换矩阵是一种 44 的矩阵,其一般形式为: T [ R p 0 1 ] T\begin{bmatrix}R&p\\0&1\end{bmatrix} T[R0​p1​] 其中, R …

MySQL DDL操作全解析:从入门到精通,包含索引视图分区表等全操作解析

目录 一、DDL 基础概述 1.1 DDL 定义与作用 1.2 DDL 语句分类 1.3 数据类型与存储引擎 1.3.1 数据类型 1.3.2 存储引擎差异 二、基础 DDL 语句详解 2.1 创建数据库与表 2.1.1 创建数据库 2.1.2 创建表 2.2 修改表结构 2.2.1 添加列 2.2.2 修改列属性 2.2.3 删除列…

torch.randn vs torch.rand

1 分布类型: randn:生成标准正态分布(均值 0,标准差 1) rand:生成 [0, 1) 区间的均匀分布 2 数值范围: randn:可能产生负数(范围 (-∞, ∞)) rand&#xff…

NLP学习路线图(十九):GloVe

自然语言处理(NLP)的核心挑战在于让机器理解人类语言的丰富含义。词向量(Word Embeddings)技术通过将词语映射到高维实数空间,将离散的符号转化为连续的向量,为NLP任务奠定了坚实基础。在众多词向量模型中&…

极客时间:用 FAISS、LangChain 和 Google Colab 模拟 LLM 的短期与长期记忆

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

dify应用探索

一个典型的 Agent Multi-Agent 系统 智能导购会根据用户意图分类并传递给相应商品导购Agent,返回商品信息。采用Multi-Agent架构,其中Router Agent负责对用户问题进行意图 分析,并路由到其它商品导购Agent,商品导购Agent负责向厥客收 集商品…

py爬虫的话,selenium是不是能完全取代requests?

selenium适合动态网页抓取,因为它可以控制浏览器去点击、加载网页,requests则比较适合静态网页采集,它非常轻量化速度快,没有浏览器开销,占用资源少。当然如果不考虑资源占用和速度,selenium是可以替代requ…

c++类和对象-继承

参考链接:46 类和对象-继承-继承方式_哔哩哔哩_bilibili 1.概述 作用:提高代码复用率,多个子类和父类有相同之处,又有自己各自的特点。例如基类人有四肢、会走路、说话,不同子类中国人是黑头发,说汉语&am…

MySQL中的锁

MySQL中有哪些锁? 全局锁(FTWRL) 含义:Flush Table with Read Lock的缩写,它会锁定整个数据库实例,让所有表都处于只读状态。 使用全局锁,要执行的命令: flush tables with read lock 之后,整个数据库就处于只读…

探索 Dify 的工作流:构建智能应用的新范式

目录 前言1. 什么是 Dify 的工作流2. 工作流的核心组成2.1 节点(Node)2.2 连接线(Edge)2.3 上下文与变量系统 3. 工作流的典型使用场景3.1 多轮对话与智能客服3.2 文档问答系统3.3 多语言营销文案生成3.4 多模型对比与评估&#x…

分词算法BBPE详解和Qwen的应用

一、TL;DR BPE有什么问题:依旧会遇到OOV问题,并且中文、日文这些大词汇表模型容易出现训练中未出现过的字符Byte-level BPE怎么解决:与BPE一样是高频字节进行合并,但BBPE是以UTF-8编码UTF-8编码字节序列而非字符序列B…

小云天气APP:精准预报,贴心服务

在快节奏的现代生活中,天气变化对我们的日常生活、出行安排以及健康状况都有着重要影响。一款精准、便捷且功能丰富的天气预报应用,无疑是提升生活品质的必备工具。小云天气APP正是这样一款为安卓用户量身定制的天气预报应用,凭借其精准的天气…

阿里云服务器ECS详细购买流程

1、打开云服务器ECS官方页面 打开阿里云服务器ECS页面 点击进入阿里云服务器 2、付费类型选择 阿里云服务器付费类型 3、地域节点 阿里云服务器全球28个地域,中国大陆地域如华北2(北京)、华东1(杭州)、华南1&#xf…

FastAPI+Pyomo实现线性回归解决饮食问题

之前在 FastAPI介绍-CSDN博客 中介绍过FastAPI,在 Pyomo中线性规划接口的使用-CSDN博客 中使用Pyomo解决饮食问题,这里将两者组合,即FastAPI在服务器端启动,通过Pyomo实现线性回归;客户端通过浏览器获取饮食的最优解。…

【C++篇】STL适配器(上篇):栈与队列的底层(deque)奥秘

💬 欢迎讨论:在阅读过程中有任何疑问,欢迎在评论区留言,我们一起交流学习! 👍 点赞、收藏与分享:如果你觉得这篇文章对你有帮助,记得点赞、收藏,并分享给更多对C感兴趣的…

leetcode刷题日记——二叉树的层次遍历

[ 题目描述 ]: [ 思路 ]: BFS,利用队列特性完成对树的层次遍历运行如下 int** levelOrder(struct TreeNode* root, int* returnSize, int** returnColumnSizes) {if (!root) {*returnSize 0;return NULL;}struct TreeNode* queue[2000];…

【优选算法 | 队列 BFS】构建搜索流程的核心思维

算法相关知识点可以通过点击以下链接进行学习一起加油!双指针滑动窗口二分查找前缀和位运算模拟链表哈希表字符串模拟栈模拟(非单调栈)优先级队列 很多人学 BFS 的时候都知道“用队列”,但为什么一定是队列?它到底在整个搜索流程中起了什么作…

Retrievers检索器+RAG文档助手项目实战

导读:作为企业级应用开发中的关键技术,LangChain检索器(Retrievers)正成为构建高效RAG系统的核心组件。本文将深入探讨检索器的技术架构与实战应用,帮助开发者掌握这一重要的AI工程技术。 检索器的价值在于提供统一的检…