图解深度学习 - 基于梯度的优化(梯度下降)

article/2025/7/3 21:10:22

在模型优化过程中,我们曾尝试通过手动调整单个标量系数来观察其对损失值的影响。具体来说,当初始系数为0.3时,损失值为0.5。随后,我们尝试增加系数至0.35,发现损失值上升至0.6;相反,当系数减小至0.25时,损失值下降至0.4。这一实验结果表明,在该特定情境下,减小系数值有助于降低模型的损失值。

然而,这种方法在实际应用中非常低效,因为模型通常包含大量的系数(可能达到上千个甚至上百万个),对每个系数进行两次前向传播来计算不同取值下的损失值,计算成本极高。

为了解决这个问题,引入了梯度下降法作为一种更高效的优化方法。梯度下降法通过计算损失函数对每个系数的梯度(即损失值对系数的导数),能够指导我们如何调整每个系数以最小化损失值,而无需对每个系数进行多次前向传播试验。

图片


资料分享

为了方便大家学习,我整理了一份深度学习资料+80G人工智能资料包(如下图)

不仅有入门级教程,配套课件,还有进阶实战,源码数据集,更有面试题帮你提升~

需要的兄弟可以按照这个图的方式免费获取


一、梯度下降

梯度下降(Gradient Descent是什么梯度下降是一种通过迭代计算损失函数梯度并沿其反方向更新参数以最小化损失值的优化算法。

梯度下降法基于这样一个观察:如果一个函数在某点处可微且有定义,那么函数在该点沿着梯度的反方向下降最快。因此,算法从初始估计的参数点开始,通过计算损失函数的梯度,并沿着梯度的反方向进行迭代搜索,逐步接近函数的局部极小值。

  1. 初始化参数:选择一个起始点作为初始参数,这些参数可以是任意值或随机选择的值。

  2. 计算梯度:计算当前参数点处的损失函数的梯度。梯度是一个向量,表示损失函数在每个参数维度上的变化率。

  3. 更新参数:使用梯度信息来更新参数,以使损失函数的值减小。这通常是通过沿着梯度的反方向进行调整来实现的,调整的大小由学习率决定

  4. 迭代更新:重复计算梯度和更新参数的步骤,直到满足停止准则,如达到预设的最大迭代次数或损失函数值减小到足够小的值。

图片

“一图 + 一句话”彻底搞懂梯度下降。

“梯度下降是一种通过迭代计算损失函数梯度并沿其反方向调整参数,以最小化损失值的优化算法,它避免了手动调整每个参数的繁琐和高昂计算成本

图片


二、BGD、SGD、MBGD

梯度下降算法有哪些批量梯度下降(BGD)利用全部数据计算梯度,收敛快但计算量大;随机梯度下降(SGD)每次仅使用一个样本,计算量小但收敛慢且可能震荡;小批量梯度下降(MBGD)则是两者的折中,选择部分样本计算梯度,既降低了计算量又保持了较快的收敛速度。

图片

1. 批量梯度下降(Batch Gradient Descent,BGD):在每次迭代中使用全部的训练数据来计算梯度,然后更新模型参数。

  • 优点:收敛速度相对较快,可以利用矩阵运算加速计算,且在凸优化问题中能保证收敛到全局最优解。

  • 缺点:在处理大规模数据集时,计算梯度的时间和空间复杂度较高,内存使用量可能过大。

2. 随机梯度下降(Stochastic Gradient Descent,SGD):在每次迭代中随机选择一个样本来计算梯度,然后更新模型参数。

  • 优点:计算梯度的时间和空间复杂度较低,适用于处理大规模数据集,且能跳出局部最优解(因为每次更新参数的方向不一定是相同的)。

  • 缺点:收敛速度较慢,且可能会出现震荡现象,对于稠密数据集的计算速度可能较慢。

3. 小批量梯度下降(Mini-Batch Gradient Descent):在每次迭代中选择一小部分样本来计算梯度,然后更新模型参数,是批量梯度下降和随机梯度下降的折中方案。

  • 优点:计算梯度的时间和空间复杂度较低,收敛速度较快,且可以利用矩阵运算的并行性加速计算,同时能跳出局部最优解。

  • 缺点:需要手动设置小批量大小,如果选择不当可能会影响收敛速度和精度。对于大规模、稀疏或实时数据流问题,其计算效率可能不如SGD,但比BGD要好。

图片

“一图 + 一句话”彻底搞懂BGD、SGD、MBGD。

“ 梯度下降算法主要包括批量梯度下降(BGD,利用全部数据,收敛快但计算量大)随机梯度下降(SGD,每次仅用一个样本,计算量小但收敛慢且可能震荡)小批量梯度下降(MBGD,部分样本折中方案,既降低计算量又保持较快收敛速度)

图片


http://www.hkcw.cn/article/krWhKWKsCQ.shtml

相关文章

保险行业数字化应用解决方案

数字化转型面临的挑战 新一代信息技术与保险业务的深度融合成为促进创新、提升效率、优化体验的强大引擎。但保险行业业务场景多样化,数据类型复杂,传统的信息化建设模式难以匹配快速变化的市场需求。保险公司亟需引入开放灵活的技术工具,加…

欧洲央行管委:欧元区已基本击败通胀 谨慎权衡未来降息

欧洲央行管委Fabio Panetta暗示通胀已基本得到控制,但警告进一步降息需谨慎权衡。Panetta对决策者在抗击通胀方面取得的进展表示赞赏,但也指出未来做出是否继续降息的决定不会变得更容易。他在罗马向意大利金融界精英发表年度演讲时表示:“通胀回落并未对经济造成过于严重的…

目击者称男子推倒兵马俑后倒地捂脸 事件引发广泛关注

5月30日下午6时许,陕西秦始皇兵马俑博物馆发生了一起意外事件。一名男子跳入3号坑,并推倒了两尊兵马俑。据现场目击者小林回忆,当时他在导游的带领下进入3号坑,刚一进去就看到该男子跳下俑坑,先是跳到中间一层,随后又跳到俑坑下方。小林表示,自己和周围的群众都惊呆了,…

LangChain链式表达式对象要求

可调用性:每个组件必须实现 __call__ 或 invoke 方法 输入输出兼容: prompt 输出必须是聊天模型(chat)可接受的输入格式 chat 的输出必须是 StrOutputParser 可解析的格式 类型匹配: ChatPromptTemplate 输出 -> List[ChatMessage] C…

Fast-SCNN语义分割

环境搭建 1创建环境 conda create -n fast_scnn python=3.8#创建环境#创建完后进入环境 conda activate fast_scnn 2下载fast-scnn https://github.com/Tramac/Fast-SCNN-pytorch 用vscode打开 3下载依赖 缺少对应的文件 下载pytorch

演出市场 只容得下头部艺人吗 冰火两重天的现状

音乐数据分析公司Chartmetric对2022年和2024年各职业阶段的前1000名艺术家的巡演情况进行了分析,指出不仅是新晋艺术家选择退出巡演,中部乃至超级巨星级别的艺人也明显减少了巡演安排。巡演一直被视为连接乐迷、积累听众、实现收入的重要路径,但在高风险与低回报的压力下变得…

《亚洲新声》张靓颖5G冲浪 多元音乐碰撞火花

5月23日18点,亚洲首档跨国歌手文化交流节目《亚洲新声》在爱奇艺正式上线。节目首期凭借沉浸式海上舞台、国际化导师阵容和亚洲00后新声选手的多元曲风迅速吸引了网友的关注,展示了年轻歌手的无限活力与潜力,为音综市场注入了新鲜血液。首期节目中,来自中国、马来西亚、哈萨…

一少年参加橄榄球直冲撞击挑战死亡 引发广泛谴责

新西兰总理拉克森30日谴责了一项名为“直冲撞击挑战”的活动。这项在社交媒体上广泛传播的挑战导致一名青少年因头部重伤死亡。19岁的萨特斯韦特26日在北帕默斯顿市参加该挑战后不幸身亡。这项挑战模仿橄榄球员在球场上的激烈碰撞,去年在澳大利亚和新西兰都有类似活动,参与者…

氛围拉满 这是端午该有的样子 粽香四溢迎佳节

绥阳县的街头巷尾弥漫着粽叶的香气,市场上各种口味的粽子琳琅满目,充满了端午节的氛围。商家们纷纷推出端午特色产品,掀起了一波消费热潮。在绥阳县魁星楼,道路两侧的老字号店铺蒸汽氤氲,桌上堆满了裹着碧绿外衣的粽子,空气中飘散着糯香与艾草的气息。人们穿梭于各个店铺…

德约:我是米兰球迷 支持大巴黎夺冠 网球巨星的足球情怀

正在参加法网的德约科维奇在接受采访时谈到了本周末的欧冠决赛。他表示:“抱歉国际米兰,但我是一个AC米兰的球迷,我希望巴黎圣日耳曼赢得欧冠决赛。”德约科维奇对AC米兰的喜爱早已为人所知。他曾多次到现场观看AC米兰的比赛,包括2023年欧冠半决赛中AC米兰与国际米兰的同城…

学习STC51单片机21(芯片为STC89C52RCRC)

每日一言 与其焦虑未来,不如专注当下,把每件小事做到极致。 蓝牙模块 HC-08 蓝牙模块的话总结一句串口会了,蓝牙模块就会了 因为就我们这样的水平还是一个小卡拉米研究不了蓝牙的,研究蓝牙的都是高精尖的蓝牙的工程师&#xff0…

fscan渗透使用指南只为学习

📢【红队必备】FSCAN保姆级使用指南:从入门到实战,内网渗透一键通关! 一、工具简介 FSCAN是一款国产开源的内网综合扫描工具,集资产探测、漏洞扫描、权限获取于一体,被红队誉为“内网渗透瑞士军刀”。支持…

IDEA 在公司内网配置gitlab

赋值项目链接 HTTPS 将HTTP的链接 ip地址换成 内网地址 例如:https:172.16.100.18/...... 如果出现需要需要Token验证的情况: 参考:Idea2024中拉取代码时GitLab提示输入token的问题_gitlab token-CSDN博客

Keil MDK5.37或更高版本不再预装ARM Compiler Version5导致编译错误的解决方法

Keil MDK5.37预装的是最新的ARM Compiler Version6 我们可以先右击查看工程属性 在Target标签下,我们可以看到Compiler Version5就是丢失的 在Target标签下,我们可以看到Compiler Version5就是丢失的 图1 以固件库方式编程,编译之后全是错…

Pix4d航测软件正射影像生产流程(二)控制点刺点及高精度空三解算

1.控制点刺点,控制点数据导入。 2.根据空三控制点数据刺点。

如何利用实时足球数据搭建AI预测模型:技术解析与应用前景

在当今数据驱动的体育时代,足球数据分析已经从简单的赛后统计发展为能够实时影响比赛决策的强大工具。本文将为您解析如何利用实时足球数据搭建AI预测模型,以及这项技术如何改变我们对足球比赛的理解和预测能力。 一、实时足球数据的获取与处理 搭建AI模…

美银行:新兴市场股市迎最大资金流入;全球股市“失血”

本周,全球股市继续遭遇资金流出,而黄金和债券成为投资者的避风港。美银策略师Michael Hartnett报告指出,截至5月底,全球股市在过去一周录得年内最大单周净流出资金,金额高达95亿美元,其中新兴市场股票则出现20亿美元的年内最大净流入。同一时期,美元指数持续走弱,年内跌…

清华谈高中生登顶珠峰获保送 并非招生计划

近日,有媒体报道称北京第八十中学17岁的学生李浩榕成为中国首位从北坡登顶珠峰的青少年,消息一度登上热搜。还有报道称他是“全球中学生第一人”。不过,根据国内媒体的报道,河北16岁女孩丁禹琪曾在2020年从北坡成功登顶珠峰。西藏登山协会在5月30日证实,在中国业余登山爱好…

美国政府终止一项艾滋病疫苗研发项目

总台记者当地时间5月30日获悉,特朗普政府终止了一项2.58亿美元的项目,对艾滋病疫苗研发工作造成了沉重打击。一位不愿透露姓名且未经授权发言的高级官员表示,美国国立卫生研究院计划将关注点转向利用现有方法消除艾滋病。与此同时,该研究院也暂停了莫德纳公司研发的一项艾滋…

刘宇宁全开麦彩排现场 江湖嗓音带感十足

刘宇宁彩排是把CD都搬来了,咱就说这全开麦无修音现场真的很带感,谁能不夸一句宁哥的江湖嗓音呢~摩登兄弟刘宇宁责任编辑:zx0001