关于神经网络中的激活函数

article/2025/8/2 13:30:27

这篇博客主要介绍一下神经网络中的激活函数以及为什么要存在激活函数。

首先,我先做一个简单的类比:激活函数的作用就像给神经网络里的 “数字信号” 加了一个 “智能阀门”,让机器能学会像人类一样思考复杂问题。

没有激活i函数的神经网络

没有激活i函数的神经网络就像是一台“傻机器”,假设你用纯数学公式搭一个神经网络(没有激活函数),它的计算逻辑是这样的:

输入层 → 隐藏层:h=W1​⋅x+b1​
隐藏层 → 输出层:y^​=W2​⋅h+b2​
把两层合并后会发现:y^​=W2​⋅(W1​⋅x+b1​)+b2​=(W2​W1​)⋅x+(W2​b1​+b2​)

本质还是一个线性公式(形如 y=kx+b),只能拟合直线,连 “判断图片里有没有猫” 这种曲线问题都解决不了(因为猫和非猫的边界通常是复杂曲线)。

就像你让一个只会做加减乘除的计算器去解微积分题 —— 它根本看不懂题目

激活函数

激活函数的核心作用是让神经网络学会 “非线性变换”,简单说就是:

  • 对符合条件的信号 “放行通过”,
  • 对不符合条件的信号 “过滤或扭曲”,
  • 让不同信号之间产生复杂的逻辑关系。

激活函数的类比

像 “安检门” 一样过滤无效信号(以 ReLU 函数为例)

ReLU 函数:f(z)=max(0,z)

  • 作用:如果输入信号 z 是负数(比如−5),直接变成 0(相当于 “拦截”);如果是正数(比如 3),原样输出(相当于 “放行”)。
  • 类比
    • 你去机场过安检,包里的水如果超过 100ml(信号为负),直接被扣下(输出 0);
    • 小于 100ml 的水(信号为正),可以带进去(输出原值)。
  • 效果:让神经网络专注于 “有意义的信号”,过滤掉干扰项,比如识别图片时只关注 “有像素的区域”,忽略全黑的背景。

像 “调光开关” 一样压缩信号范围(以 Sigmoid 函数为例)

Sigmoid 函数:f(z)=1+e−z1​,输出永远在 0 到 1 之间。

  • 作用:把任意大小的信号(比如−100或+100)“挤压” 到 0~1 的区间,类似把 “强光” 和 “弱光” 都转化为 “手机屏幕能显示的亮度”。
  • 类比
    • 你用手机拍夜景,光线太强(信号值大)会过曝,太弱(信号值小)会漆黑,手机算法会自动把光线压缩到适合显示的范围(0~1),让亮处不过曝、暗处能看清。
  • 效果:适合处理 “概率问题”,比如判断 “这张图是猫的概率是 90%”(输出 0.9),不是猫的概率是 10%(输出 0.1)。

像 “跷跷板” 一样让信号产生对立关系(以 Tanh 函数为例)

Tanh 函数:f(z)=ez+e−zez−e−z​,输出在 - 1 到 1 之间。

  • 作用:把信号转化为 “正” 和 “负” 两种对立状态,类似给信号装了一个 “跷跷板”,一头是正向激活,一头是负向激活。
  • 类比
    • 你和朋友玩跷跷板,体重差异会让一端升高(输出 + 1),一端降低(输出 - 1),体重相近时会平衡在中间(接近 0)。
  • 效果:适合处理 “情感分类” 问题,比如判断一句话是 “积极情绪”(输出 + 0.8)还是 “消极情绪”(输出 - 0.6)。

为什么一定要有激活函数(非线性)--人类思维的本质是 “非线性”

for example

  • 你判断 “今天要不要出门”,不是只看单一因素(比如 “温度 > 20℃就出门”),而是综合考虑:
    • 温度是否合适(激活 1)、
    • 有没有下雨(激活 2)、
    • 朋友是否约你(激活 3)、
    • 工作是否完成(激活 4)……
      这些因素通过 “非线性组合”(比如 “温度合适  没下雨  朋友强烈约我”)最终决定你的行为。

激活函数就是在模拟这种非线性逻辑

  • 每个隐藏层神经元用激活函数处理信号后,相当于学会了一个 “局部判断规则”(比如 “温度 > 20℃时激活”),
  • 多层神经元的激活函数叠加后,就能组合出无穷多复杂规则(比如 “温度> 20℃  下雨概率 < 30%  朋友约我吃饭”),
  • 最终让神经网络能像人类一样解决复杂问题(如图像识别、语言翻译等)。

总结

无激活函数的网络只能做​线性运算(低级计算器)有激活函数的网络能做​非线性变换(智能大脑)
一句话:激活函数让数字信号学会 “思考”,让机器从 “机械计算” 进化到 “智能决策”!


http://www.hkcw.cn/article/FeIAfraBxY.shtml

相关文章

开始使用 Elastic AI Assistant for Observability 和 Amazon Bedrock

作者&#xff1a;来自 Elastic Jonathan Simon 及 Udayasimha Theepireddy (Uday) 按照以下分步流程开始使用 Elastic AI Assistant for Observability 和 Amazon Bedrock。 如果你想使得下面的操作适用于 DeepSeek R1&#xff0c;那么你可以更进一步阅读文章 “使用 Ollama 和…

[平台运营] CSDN评论折叠机制对内容引流的影响与实践反思

[网页链接]在内容创作和知识分享过程中,很多技术博主会选择在 CSDN 这样的专业平台发布文章、经验总结或教程,并希望通过评论、互动的方式进一步引流到自己的其他优质内容(例如视频课程、开源项目等)。 但最近我在实操中遇到了一些有趣的现象,想在这里做个记录和分享,供有…

51单片机基础部分——LED

前言 之前更新过了蓝桥杯单片机的相关部分&#xff0c;那也是一款51单片机&#xff0c;主控芯片是STC15&#xff0c;现在我们要使用的是AT89C52&#xff0c;操作基于普中的51开发板进行开发&#xff0c;入门款的芯片&#xff0c;属于比较简单的&#xff0c;所以我们了解一下就…

js实现猜数字案例

<!DOCTYPE html> <html><head><meta charset"utf-8"><title></title></head><body></body><script>// 猜随机数// 生成一个随机数并取整var guessNumber Math.floor(Math.random() * 100)console.log(…

[AI算法] LLM中LoRA的占用显存没有减少多少?

文章目录 Lora为什么没有减少多少显存几种Freeze的设置方式torch.no_gradrequire_gradFalseeval() Lora为什么没有减少多少显存 在使用 PEFT&#xff08;Parameter-Efficient Fine-Tuning&#xff09; 方法&#xff08;如 LoRA、IA 等&#xff09;时&#xff0c;你可能会观察到…

C++命名空间深度解析

1.命名空间的价值 在C/C中&#xff0c;变量、函数和类都是大量存在的&#xff0c;这些变量、函数和类的名称将都存在于全局作用域中&#xff0c;可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化&#xff0c;以避免命名冲突或名字污染&#xff0c;namespace…

上海工作机会:Technical Writer Senior Technical Writer - 中微半导体设备

大名鼎鼎的中微半导体招聘文档工程师了,就是那家由中国半导体产业的领军人物尹志尧领导的、全员持股的公司。如果你还不了解他,赶快Deepseek一下“尹志尧”了解。 招聘职位:Technical Writer & Senior Technical Writer 公司名称:中微半导体设备(上海)股份有限公司…

2024年12月 C/C++(三级)真题解析#中国电子学会#全国青少年软件编程等级考试

C/C++编程(1~8级)全部真题・点这里 第1题:最近的斐波那契数 斐波那契数列 Fn 的定义为:对 n ≥ 0 有 Fn+2 = Fn+1 + Fn,初始值为 F0 = 0 和 F1 = 1。所谓与给定的整数 N 最近的斐波那契数是指与 N 的差之绝对值最小的斐波那契数。 本题就请你为任意给定的整数 N 找出与之最…

大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataease(三)

hbase集群部署 wget -c https://dlcdn.apache.org/hbase/2.5.10/hbase-2.5.10-bin.tar.gz 下载地址 在master-1操作 tar xf hbase-2.5.10-bin.tar.gz -C /data/ && mv /data/hbase-2.5.10 /data/hbase vim /etc/profile export HBASE_HOME/data/hbase export PAT…

2022—2025年:申博之路及硕士阶段总结

文章目录 1 前景概要2 打造神兵利器2.1 夺天地之精2.2 锻兵魂之形2.3 契人兵之命 3 潜心闭关修炼3.1 第一阶段&#xff1a;苦心智3.2 第二阶段&#xff1a;劳筋骨3.3 第三阶段&#xff1a;摧意志 4 突破晋级4.1 突破失败4.2 聚气凝神4.3 心魔再现4.4 新起点 5 回顾及深思 1 前景…

NetSuite Bundle - Dashboard Refresh

儿童节快乐&#xff01; 今朝发一个Bundle&#xff0c;解决一个NetSuite Dashboard的老问题。出于性能上的考虑&#xff0c;NetSuite的Dashboard中的Portlet&#xff0c;只能逐一手工刷新。有人基于浏览器做了插件&#xff0c;可以进行自动刷新。但是在我们做项目部署时&#…

简析PointNet++

简析PointNet 更好的阅读体验&#xff0c;欢迎访问 简析PointNet 获得 论文: https://arxiv.org/abs/1706.02413 TensorFlow 版本代码: https://github.com/charlesq34/pointnet2 Pytorch 版本代码: https://github.com/yanx27/Pointnet_Pointnet2_pytorch 背景 在PointNet中…

2024 CKA模拟系统制作 | Step-By-Step | 8、题目搭建-创建 Ingress

目录 ​​​​​​免费获取题库配套 CKA_v1.31_模拟系统 一、题目 二、核心考点 Ingress 资源定义 Ingress Controller 依赖 服务暴露验证 网络层次关系 三、搭建模拟环境 1.创建命名空间 2.安装ingress ingress-nginx-controller 3.创建hello.yaml并部署 四、总结 …

Android Java 版本与 Gradle 版本兼容问题:use incompatible Java 21.0.3 and Gradle 4.8.1.

问题与处理策略 问题描述 打开一个 Android 项目&#xff0c;报如下错误 Your build is currently configured to use incompatible Java 21.0.3 and Gradle 4.8.1. Cannot sync the project.We recommend upgrading to Gradle version 8.9.The minimum compatible Gradle v…

深度理解Restful开发规范【总结】

目录 &#x1f499;一、为啥要遵循 Restful 开发规范 ❤️二、Restful 初印象 &#x1f49a;&#xff08;一&#xff09;啥是 Restful &#x1f49c;&#xff08;二&#xff09;核心原则 &#x1f499;三、Restful 在 Java 中的实战 &#x1f49b;&#xff08;一&#xf…

【SF顺丰】顺丰开放平台API对接(Java对接篇)

对接前置篇&#xff1a; 【SF顺丰】顺丰开放平台API对接&#xff08;注册、API测试篇&#xff09;_顺丰api接口对接指南-CSDN博客 1.实现效果展示 2.SF顺丰开放平台&#xff0c;JDK资源下载。 下载地址&#xff1a;顺丰开放平台 3.将下载的JDK放入项目中。 4.将JDK资源引入p…

Java 大视界 —— Java 大数据在智能建筑室内环境舒适度预测与调控中的应用(269)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

树莓派3B小练习

PWM驱动LED灯 3B引脚图 PWM通道 GPIO号 物理引脚 复用功能 PWM0 GPIO12 32 Alt Fun 0 PWM1 GPIO13 33 Alt Fun 0 PWM0 GPIO18 12 Alt Fun 5 PWM1 GPIO19 35 Alt Fun 5 第一步 启用pwm&#xff08;默认情况下未启用&#xff09; 简而言之&#xff0c;你无法通过Linux内核API…

中国信通院:《“机器人+人工智能”工业应用研究报告》| 人工智能赋能机器人,如何重塑工业版图?

在数字经济蓬勃兴起的浪潮中&#xff0c;《中国信通院&苏州机器人产业协会-“机器人人工智能”工业应用研究报告》为我们揭示了智能制造的未来图景。 这份报告不仅是技术发展的记录&#xff0c;更是产业升级的指南。它以深刻的洞察力&#xff0c;剖析了“机器人人工智能”…

LangChain-结合GLM+SQL+函数调用实现数据库查询(三)

针对 LangChain-结合GLM+SQL+函数调用实现数据库查询(二)-CSDN博客 进一步简化 通过 LangChain 和大语言模型(GLM-4)实现了一个 AI 代理,能够根据自然语言提问自动生成 SQL 查询语句,并连接 MySQL 数据库执行查询,最终返回结果。 整个流程如下: 用户提问 → AI 生成 SQ…