07.概念三:LayerNorm和Softmax

article/2025/6/8 15:01:35

参考视频:LayerNorm和Softmax概念


那我们第三部分的概念,也就是概念的最后一部分
关于LayerNorm和Softmax的概念、以及最后文字是怎么预测出来的

 

我们先来看一下这个layer normalization,简称layer norm层归一化。我觉得叫数字缩放,更容易理解一些。尤其对初学者,层归一化太抽象了。其实它在做的事情,就是对数字进行缩放。

具体来说,比如我们有这一组数字,那么它分别代表什么呢?形象一点说,它是我们的训练数字的token。比如说“小沈阳邀”,它的token分别是22、5、6、8,就通过一系列计算,可能变大了一些。那么layer normalization在做的事情,就是把这些数字缩小一些,缩在这个正负一附近的范围之内。同时,还要保持它们之间的相对大小关系。比如说22是最大的,5是最小的。

那么缩放规则,就是第一个要均值为0,第二个方差为1。什么意思呢?就是缩放完后,这些所有的数字加起来,它们的平均值等于0。所以你看,有正数有负数,它们相加的平均值等于0。然后,第二个方差为1,这个看起来挺复杂,咱们不用管它。具体来说,就是所有每一个值减去它们的平均值之后,再开一个平方根的意思。有一个数学公式,这个公式就是所谓的layer normalization的公式,那么X,就代表了这每一个值,它要减去均值,然后除以根号下它的方差。这个公式,其实我们不用去记。大语言模型的训练里面,如果用Pytorch这样的框架,那就是一行代码的事儿,就这个 nn.layernorm(bias=True) 就可以直接完成这一个部分的操作。

那么主要展开讲的,有两部分,其实它里面蕴含了两个可以训练的参数,分别是贝塔和伽马。那这两个东西,也是不需要我们去调的,是我们的大语言模型会自动去更新的这个参数的。

那么这个代表了什么意思呢?其实就是在我们做这个数字缩的时候,除了我们用这个公式之外,它还有两个这个值可以去学习。那么一个呢,是这个公式乘以的一个系数伽马,另外一个,是加上一个偏置项bias,这是个偏置项,用来调节我们这些数,这些偏值项都是很小的数字。当然有的模型训练里面,也不加这个偏置项,有的也不会去乘这个伽马系数。所以,我们现在不用管它。如果说在我们不加偏执项的时候,就把这个bias设置为false,加的话,就给它设置为true就可以了。

我们需要懂的就是这一层的目的,是把文字的数字做一个缩放。这个缩放,可以在很多地方都会插入进去。比如,我们进行了一系列运算之后,文字变大了,那我们就要给它做一次layernorm,把它文字再变小些就可以。

下一个,是关于Softmax,Softmax其实更简单,它就是把数字变概率,这个Softmax主要是用在最后一步,就是我们输出预测文字的部分。同样看例子,那我们有一系列这些计算结果,那么这些数字,就是我们通过注意力机制所计算出来的权重,每一个字有不同的权重,我们现在要做的是在这些权重里面选概率最高的(权重最高的)那个值作为下一个输出预测的结果。那么这样选的话,看的不是很直观,更直观的方式就是把它们转换成百分比,就比较直观了。明显“请”字百分比最高。我们刚才的训练样本是“小沈阳邀”,所以下一个字预测的是“请”,所以“请”字的百分比最高。

那如何将我们的权重数字转化成百分比呢?也有一个Softmax公式。同理,不用看公式,一个torch.softmax() 的函数,就可以直接把我们所有的数字转换成我们的百分比了。那百分比的意思也就是说,我们所有的数字的总和加起来等于1,即百分之百。所以每一个单独的数字,就是在百分之百的区间当中的各自的占比。公式的话,是这样的,如果说把这一行的数字分别转换成百分比的话,那我们就用一个分子和分母。分母,是所有可能出现元素的总和,然后分子,是每一个元素,这样就能计算出来一个百分比的。那么E叫做自然常数E,也就是E的3.01次方加上E的0.09次方,再加上每一个数的次方作为分母。分子,就是分别当前的这个E的3.01次方。这样除出来的结果,就是它的百分比。也就是torch.softmax() 函数就能完成的。我们知道它底层逻辑就可以了。

 

重新回到这个transformer的结构图里来,我们看Softmax是在所有的运算之后,最后一步用到这个Softmax。也就是说,前一步,是我们预测出来的概率词,那么它是一个我们所有样本的词典,长度的一个非常大的映射的一个向量,或者叫矩阵。那么如果说我们词典是1万个字,那么这个就是有1万个数字权重的这样的一个矩阵。然后,我们把这所有的数字权重通过softmax转换成百分比,那么挑出来百分比最高那个词就是我们预测的文字了。那Softmax主要用处在这儿。但大家看,在多头注意力机制里面还有一个Softmax。同理,它的作用就是把我们之前计算的结果转换成百分比,然后应用到另一个结果里面去。

那这一部分,我们会在即将进入的transformer的架构讲解里面去接触它。


http://www.hkcw.cn/article/gschFcbvMx.shtml

相关文章

sglang0.4.3参数说明

执行命令: Python3 -m sglang.launch_server --model-path /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B --host 172.26.*.* --port 9300 --tp 4 --trust-remote-code --served-model-name qwen32b 运行结果 响应速度 参数说明 model_path: 模型文件…

DeepSeek-R1-0528,官方的端午节特别献礼

DeepSeek:端午安康!刻在国人骨子里的浪漫 2025 年 05 月 28 日 | DeepSeek 端午特别献礼 当粽叶飘香时,DeepSeek 悄然带来一份节日惊喜 版本号 DeepSeek-R1-0528 正式上线 官方赋予它的灵魂是: 思考更深 推理更强 用户通过官网…

莫雷加德说很荣幸成为樊振东队友 共同征战TTBL

当地时间5月31日,萨尔布吕肯乒乓球俱乐部宣布,乒乓球大满贯选手、巴黎奥运会乒乓球男单金牌得主樊振东将在下个赛季代表俱乐部参加德国乒乓球甲级联赛(TTBL)。目前效力于萨尔布吕肯俱乐部的乒乓球运动员、巴黎奥运会乒乓球男单银牌得主莫雷加德在社交媒体上表达了欢迎之情,…

人民日报:有车企说反内卷却打价格战 行业协会与工信部齐发声反对

中国汽车工业协会发布《关于维护公平竞争秩序,促进行业健康发展的倡议》,明确表示反对近期车企掀起的新一轮“价格战”。工信部也表态支持该倡议,强调“价格战”没有赢家。这一信号和态度有助于及时遏制无序的价格竞争。近年来,一些车企虽然口头上反对“内卷式”竞争,但实…

深入剖析Java类加载机制:双亲委派模型的突破与实战应用

引言:一个诡异的NoClassDefFoundError 某金融系统在迁移到微服务架构后,突然出现了一个诡异问题:在调用核心交易模块时,频繁抛出NoClassDefFoundError,但类明明存在于classpath中。经过排查,发现是由于不同…

在屈原的家乡端午节是什么样 三次端午持续近一月

端午节作为中国最古老的节日之一,其中以纪念屈原的习俗影响最为广泛。屈原出生于战国时期的湖北秭归,这里不仅保留着典型的屈原故里端午习俗,还有“端午比年大”的说法。在屈原的家乡湖北秭归乐平里,四面群山环抱,不远处是长江支流香溪河。据古籍记载,秭归“县北一百六十…

两条大鲵觅食迷路 警民接力救助 携手护送“水中熊猫”

5月29日10时许,湖北省襄阳市保康县的李先生和朋友在后坪镇五道峡附近的小河钓鱼时,意外发现了两条娃娃鱼。考虑到它们是野生保护动物,李先生立即报警求助。十分钟后,保康县公安局后坪派出所民警赶到现场。李先生激动地告诉民警:“我一看像是‘娃娃鱼’,就赶紧报了警,还是…

梨形身材是基因彩票 更长寿的体型密码

身材与健康息息相关,涉及体能、代谢和疾病风险等多个方面。科学家认为,“细腰肥臀”的梨型身材患代谢相关慢性病的风险较低,寿命更长。近日,“梨形身材是基因彩票”的话题在社交平台引发热议。研究发现,大腿粗、臀部大的“梨形身材”可能比肚子大的人长寿。《欧洲心脏杂志…

STL之vector

1 vector初识 1 动态扩展 并不是在原有的空间里面之后续接新的空间&#xff0c;而是找更到的空间&#xff0c;然后将原有的数据拷贝到新的空间&#xff0c;释放原有空间 vector容器的迭代器是支持随机访问的迭代器 2 功能描述和函数原型 //默认构造 vector<int> v1;f…

巴黎圣日耳曼5比0国际米兰 创造队史新篇章

当地时间5月31日晚,2024-2025赛季欧洲冠军联赛决赛在德国慕尼黑落幕。巴黎圣日耳曼以5比0战胜国际米兰,首次夺得欧冠奖杯,书写了队史新篇章。这是巴黎圣日耳曼第三次闯入欧冠决赛,前两次均未能夺冠。此次胜利使巴黎圣日耳曼实现了赛季三冠王的壮举,包括法甲、法国杯和欧冠…

《高级架构师》------- 考后感想

笔者来聊一下架构师考后的感想 复习备考 考前过了很多知识点&#xff0c;只是蜻蜓点水&#xff0c;没有起到复习的作用&#xff0c;即使考出来也不会&#xff0c;下次复习注意这个&#xff0c;复习到了&#xff0c;就记住&#xff0c;或者画出来&#xff0c;或者文件总结&…

Python实现P-PSO优化算法优化Catboost分类模型项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档&#xff09;&#xff0c;如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 随着机器学习技术的快速发展&#xff0c;分类问题在金融风控、医疗诊断、推荐系统等领域的重要性日益凸显。CatBoost…

中使馆驳斥马克龙将台湾类比乌克兰 本质区别不可比

当地时间5月31日,法国总统马克龙在香格里拉对话会上表示,如果允许俄罗斯不受约束地占领乌克兰的任何部分,那么台湾也可能面临类似情况。对此,中国驻新加坡大使馆在社交平台脸书上回应称,将台湾问题与乌克兰问题相提并论是不可接受的。中国驻新加坡大使馆指出,台湾问题与乌…

步行者时隔25年第2次总决赛战雷霆 决战在即

北京时间6月1日上午,NBA东部决赛进行了第6场比赛,印第安纳步行者在主场以125比108击败纽约尼克斯,最终以4比2的大比分晋级NBA总决赛。他们的对手将是雷霆队。这是步行者自1999-2000赛季以来首次闯入NBA总决赛。比赛过程中,上半场双方比分紧咬。第三节比赛中,步行者逐渐发力…

如何解读印度宣布将自研隐形战斗机 挑战与前景

印度国防部宣布启动国产隐形战斗机的研制项目,标志着印度在自研和进口隐形战斗机之间做出了选择。隐形战斗机的研制难度极大,全球仅有少数国家具备此能力。外界对印度是否具备自主研发隐形战斗机的能力表示关注。印度防长辛格批准了一项建造先进中型隐形战斗机(AMCA)的框架…

姆巴佩祝贺巴黎夺冠 荣光属于整个俱乐部

北京时间6月1日凌晨,2024-2025赛季欧冠决赛落幕。巴黎圣日耳曼在最终决战中表现出色,上半场杜埃一传一射帮助球队以2-0领先,下半场杜埃完成梅开二度,科瓦拉茨赫利亚单刀扩大比分,马尤卢锁定胜局,最终巴黎圣日耳曼以5-0战胜国际米兰,首次夺得欧冠奖杯。赛后姆巴佩发文祝贺…

巴黎夺得欧冠冠军 创决赛最大分差纪录

北京时间6月1日,欧冠决赛在安联球场举行,巴黎圣日耳曼对阵国际米兰。上半场阿什拉夫破门,19岁的杜埃贡献一传一射。下半场杜埃再入一球,克瓦拉茨赫利亚锁定胜局,马尤卢替补登场后也取得进球,登贝莱则送出两次助攻。最终,巴黎圣日耳曼以5-0大胜国际米兰,创造了欧冠决赛的…

雷军:诋毁 本身就是一种仰望 小米汽车备受期待

6月1日,雷军在微博上宣布,2025年5月小米SU7的交付量将超过28,000台。他表示,公司正在全力为小米YU7的大规模量产做准备,预计7月份开始量产。同一天,小米集团总裁卢伟冰也在微博上表示,无论是SU7的热销还是YU7获得更高的关注和期待,都基于强大的产品力。他强调,小米汽车…

Labubu冲破关税打压美国卖断货 中国智造引领潮流

摩根大通CEO杰米戴蒙访问中国后表示,面对美国的关税打压,中国人并不害怕,想让中国对美国卑躬屈膝的想法是不现实的。中国能够昂首挺胸,因为越来越多的中国公司能生产出让美国消费者喜欢的“中国智造”产品。近期,一个来自中国的娃娃Labubu成为世界顶流。尽管最初被部分人认…

巴啦啦小魔仙凌妈妈扮演者自曝片酬 1500元一天引发热议

5月31日,话题#巴啦啦小魔仙凌妈妈扮演者自曝片酬 登上热搜第一。《巴啦啦小魔仙》中的凌妈妈和凌爸爸在时隔17年后重聚,他们在剧中曾被誉为“理想父母”。凌妈妈的扮演者左左表示,已经17年没有见面,感觉恍如隔世。尽管多年未拍戏,但能留下这样一个经典角色,她感到非常知足…