【人工智能】deepseek七篇论文阅读笔记大纲

article/2025/7/19 2:07:01

七篇文章看了整整五天,加上整理笔记和问ds优化,大致的框架是有了。具体的公式细节比较多,截图也比较麻烦,就不列入大纲去做笔记了。


DeepSeek-LLM:一切的起点,所以探索的东西比较多,包括:

  • transformer架构(后续V2/V3的改进基础)
  • “多步”替代“余弦”学习率调度器
  • AdamW优化器(贯穿所有版本的核心)
  • HAI-LLM框架并行(支持后续FP8训练)
  • ZeRO-1优化器(V3升级到ZeRO-3)
  • 位置编码RoPE/GQA(需解耦RoPE冲突)
  • scaling law(v3的MTP深度选择依据)
  • BBPE分词器(保持到V3不变)
  • 归一化:Pre-Norm + RMS Norm(保持到V3不变)
  • CND(计算预算、最优批大小、学习率)公式C=6ND(V2/V3的算力分配用,但V3引入FP8后需调整系数)
  • DPO替代RLHF
  • 无明确奖励模型

DeepSeek-R1:
在DeepSeek-V3-Base上研究"推理",主要优化点
(这里我没有把zeroR1和R1分开写,两者具体不一样见表格):

  • 纯用RL算法GRPO(分组策略降低方差,适配长推理链→导致"顿悟"现象)
  • GRPO是RLHF变体,SFT只是准确问答问题,RLHF更有人类偏好
  • 冷启动优化(用小规模思维链数据预热,解决RL初期不稳定)
  • 蒸馏提取推理能力(为V3的SFT阶段提供数据源)
  • 语言混合问题 → 催生V3的语言一致性奖励
  • AdamW等基础未改动
  • 奖励模型:纯用RL算法GRPO
    怕有人杠其实我只是懒得分开两版来写了囧

DeepSeek-V2:
在LLM基础上研究"性能",从架构入手:

  • MoE创新(细粒度专家+共享专家隔离 → 参数效率↑30%)
  • KV压缩MLA(低秩联合压缩,缓存减少88% → 为V3的MTP铺路)(文中这里是先介绍传统的MHA、MQA、GQA作为铺垫)
  • 解耦旋转位置编码:解决旋转位置嵌入与KV压缩不兼容的问题
  • 设备感知路由(通信成本↓50%)
  • AdamW等基础未改动
  • 未提及奖励模型,推测沿用R1

DeepSeek-V3:
在V2基础上增强:

  • MoE路由改进(无辅助损失负载均衡 → 摆脱平衡性约束)
  • 注意力增强MTP(需V2的MLA作为前提,新增4个预测头)
  • FP8训练(依赖H100硬件,速度↑1.7x)
  • 两阶段蒸馏(继承R1的CoT能力)
  • AdamW等基础未改动
  • 奖励模型:混合了规则奖励与模型奖励
    在这里插入图片描述

DeepSeekMoE:
v2混合专家→v3混合专家→终极优化混合专家:

  • 动态专家合并(解决V3固定m值的扩展瓶颈)
  • 跨设备协作(千亿级参数时延迟优化)
  • 成为DeepSeek最终MoE形态
  • AdamW等基础未改动
  • 奖励模型:沿用V3,增加专家选择奖励
    在这里插入图片描述

H-CoT:
国外一项工作,抽样几家主流AI进行安全性测试,对于deepseek他们选了R1:

  • R1的GRPO缺陷(过度依赖结果奖励,忽视中间状态 → 被劫持)
  • 对比V3的改进:规则奖励模型+轨迹监控
  • 后续启示:需增加推理过程签名验证
    在这里插入图片描述

http://www.hkcw.cn/article/FPJrmILegv.shtml

相关文章

黄金大涨 国际金价显著走强

国际金价因外围消息刺激大幅走强,港股黄金股也受到提振。潼关黄金上涨12.50%,中国黄金国际上涨2.41%,山东黄金上涨2.04%,赤峰黄金上涨1.62%。美国总统特朗普宣布,从6月4日起将进口钢铁和铝关税从25%提高至50%,声称此举旨在保护美国产业免受不公平竞争。他还表示,包括特斯…

气象部门回应西藏现精灵闪电 罕见现象揭秘

5月31日至6月1日,中国摄影师在西藏山南拍到红色精灵闪电。精灵闪电形成于大气中间层,是雷击产生电磁波的结果。据中国天气科普,它在空中存在几十分之一秒,如鬼魅一般难以捉摸。责任编辑:zhangxiaohua

夫妻端午冒雨攀爬野长城 忽视安全酿事故

雨淅淅沥沥下个不停,但这并没有阻止一对夫妻爬山的脚步。他们在享受雨中游玩的快乐时,也忽视了自身安全。5月31日端午节,在阴雨天气中,这对中年夫妻前往京郊一处野长城游玩。爬山过程中,妻子脚滑不慎摔伤,无法下山。消防员接警后立即赶赴现场。当天,山路泥泞湿滑,消防员…

传统文化引领“新国潮” 激活经济新动力

传统文化引领“新国潮”旅途之中,走进博物馆打卡“国宝”必不可少;走进乡村,非遗工坊里游客们仔细挑选心仪的手工艺品;打开购物软件,马面裙、国货彩妆是年轻人的“心头好”。不知不觉中,传统文化已在人们生活中繁盛存在。国潮是“国”与“潮”的融合体——“国”指的是中…

关于MySQL的索引

一、索引 1、索引概述 1.1、介绍 索引( index )是帮助 MySQL 高效获取数据的数据结构 ( 有序 ) 。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据&…

52岁局长涉性侵女子 职务信息被撤 案件引发广泛关注

今年4月,湖南省机场管理集团党委书记、董事长,湖南省机场管理局局长邱继兴,因涉嫌性侵一女子被警方刑拘一事引发广泛关注。6月2日,大皖新闻记者注意到,该集团已迎来新任党委书记、董事长,官网已撤下邱继兴职务信息,集团官方微信公众号中大量关于他的内容也已消失。邱继兴…

马斯克评论乌对俄无人机特种作战 无人机主宰未来战场

马斯克评论“乌对俄发动大规模无人机特种作战”时称,无人机正在成为现代战争的关键工具。他表示,无人机才是未来战场的主宰,而不是有人驾驶飞机。2025年6月1日,乌克兰国家安全局在社交媒体上宣布,当天对俄罗斯实施了特种作战行动,袭击了俄军的战略轰炸机。乌克兰总统泽连…

男子委托网友炒股8个月亏40万 盲目信任酿苦果

山东沂南的王某和李某都是某炒股群网友。王某听说李某具有丰富的炒股经验,便把自己的股票账户和密码交给李某代为炒股,并承诺把盈利的20%分给李某,而李某则表示如果亏了钱会转给王某。从2021年12月至2022年8月期间,王某委托李某炒股累计投入资金60万元,结果亏损40万元,王…

VMware(威睿)公司

本文来源 :腾讯元宝 VMware(威睿)是一家全球领先的虚拟化和云计算基础架构解决方案提供商,成立于1998年,总部位于美国加利福尼亚州帕洛阿尔托。以下是其关键信息: 1. ​​公司概况​​ ​​成立时间​​&…

西安一男子谎报火警被拘留 醉酒报复引发关注

5月22日凌晨1时57分,西安消防接到报警称一火锅店发生火灾。接警后,西安市消防救援支队西华门消防站立即出动3车15人赶赴现场处置。出警途中,消防员多次联系报警人核实情况,但报警人只提供了店主的电话号码,拒绝提供店铺的具体位置和火灾详情等关键信息。消防员抵达现场后,…

利雅得胜利调整合同以求C罗留下 提交引援计划吸引续约

北京时间6月2日,意大利知名转会专家罗马诺透露,利雅得胜利正计划提交引援方案以吸引C罗续约。俱乐部准备向C罗展示他们的转会规划,希望能借此与他达成新的续约协议。为了获得C罗的续约批准,利雅得胜利正在积极筹备一系列改变,希望他能签署新合同继续留在球队。夏季转会窗口…

武汉入境游同比增长45% 端午旅游热度攀升

端午假期结束,携程发布了2025年端午旅游报告。报告显示,在五一和暑假之间的端午小长假期间,国内多地酒店价格较五一有所下降,民俗体验、周边短途游和避暑游成为主要增长点。热门景区前十中近一半为水上乐园类景区,龙舟赛作为“水”上非遗活动吸引了大量游客。湖北入境游订…

Ai视频翻译神器来袭!pyVideoTrans一键搞定字幕与配音,免费开源

1.前言 各位小伙伴们,大家好呀!欢迎关注 天夏Ai,全网同名,我们致力于为大家挖掘和分享各种 精品实用的人工智能(Ai)资源,包括但不限于**:Ai黑科技工具软件、Ai副业创业项目、Ai智能硬…

【文末送书】Python OpenCV从入门到精通

文章目录 🍔简介opencv🌹内容简介🛸编辑推荐🎄导读🌺彩蛋 🍔简介opencv OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉库,提供了丰富的图像处理和…

探秘海螺 AI 视频与计算机视觉算法的奇妙融合

目录 开篇:数字浪潮下的视频新变革 蓝耘 Maas 平台与海螺 AI 视频:崭露头角的视频创作利器 图片生成视频:化静为动的魔法 文本生成视频:文字到画面的奇妙转换 注册与登录 计算机视觉算法:海螺 AI 视频的核心驱动力…

第一人称动作识别文献阅读——LaViLa:从大型语言模型中学习视频表征信息

目录 摘要 Abstract 1 引言 2 准备工作 3 LaViLa 3.1 NARRATOR 3.2 REPHRASER 3.3 双编码器训练 总结 摘要 本周阅读的论文题目是《Learning Video Representations from Large Language Models》(《从大型语言模型中学习视频表征信息》)。本文…

外网访问内网海康威视监控视频的方案:WebRTC + Coturn 搭建

外网访问内网海康威视监控视频的方案:WebRTC Coturn 需求背景 在仓库中有海康威视的监控摄像头,内网中是可以直接访问到监控摄像的画面,由于项目的需求,需要在外网中也能看到监控画面。 实现这个功能的意义在于远程操控设备的…

基于PyQt5的UI界面开发——图像与视频的加载与显示

介绍 这里我们的主要目标是实现一个基于PyQt5和OpenCV的图像浏览和视频播放应用。用户可以选择本地的图像或视频文件夹,进行图像自动播放和图像切换以及视频播放和调用摄像头等操作,并且支持图像保存功能。项目的核心设计包括文件路径选择、图像或视频的…

浙江3名高中生深夜被困深山 成功获救未受伤

5月31日端午节晚上,三名高中生因降雨失温被困在浙江台州的大雷山。救援人员接到通知后迅速展开搜救行动,最终找到三人并提供了保温毯和雨衣等物资。所幸没有人员伤亡。网络视频显示,当晚天空下着大雨,民警、消防人员及救援队在集结搜寻。大雷山位于浙江省台州市中西部,是永…

西藏那曲双湖县发生3.6级地震 震源深度10公里

据中国地震台网正式测定,6月2日12时32分在西藏那曲市双湖县发生3.6级地震,震源深度10公里,震中位于北纬33.63度,东经89.36度。震中5公里范围内平均海拔约5344米。根据中国地震台网速报目录,震中周边200公里内近5年来共发生了70次3级以上地震,其中最大一次是2021年3月30日…