机器学习算法:逻辑回归

article/2025/6/28 0:58:07

1. 基础概念

定义:

逻辑回归(Logistic Regression)是一种用于解决二分类问题的监督学习算法,通过概率预测样本属于某一类别的可能性。

  • 核心特点:输出是概率值(0~1),通过阈值(如0.5)转换为类别标签。

  • 注意:名字虽含“回归”,但实际是分类算法

数学形式:

  • 使用 Sigmoid函数 将线性回归结果映射到概率: P(y=1) = 1 / (1 + e^(-z)),其中 z = w₁x₁ + w₂x₂ + ... + b

  • Sigmoid函数:将任意实数压缩到(0,1),如图: https://www.saedsayad.com/images/Logistic_curves.png


2. 核心原理

损失函数:交叉熵损失(Log Loss)

衡量预测概率与真实标签的差异: Loss = - [y_true * log(y_pred) + (1 - y_true) * log(1 - y_pred)] 目标是最小化总损失。

优化方法:
  • 梯度下降(与线性回归类似,但需计算对数概率的梯度)。

  • 牛顿法、拟牛顿法(如L-BFGS)。

评估指标:
  • 准确率(Accuracy):正确分类的比例。

  • 精确率(Precision):预测为正的样本中真实正类的比例。

  • 召回率(Recall):真实正类中被正确预测的比例。

  • ROC-AUC:综合衡量分类性能的曲线下面积。


3. 实际生产中的例子

案例1:广告点击率预测(CTR预估)
  • 场景:互联网广告平台预测用户是否会点击广告。

  • 输入特征:用户历史行为、广告内容、上下文信息(如时间、设备)。

  • 输出:点击概率(0~1)。

  • 应用:根据概率对广告排序,优先展示高点击率广告。

案例2:金融风控(贷款违约预测)
  • 场景:银行判断客户是否有违约风险。

  • 输入特征:收入、信用评分、负债比、历史还款记录。

  • 输出:违约概率。

  • 应用:若概率>阈值(如0.7),则拒绝贷款申请。

案例3:医疗诊断(疾病预测)
  • 场景:根据患者检查结果预测是否患病。

  • 输入特征:年龄、血压、血糖、胆固醇指标。

  • 输出:患病概率。

  • 应用:辅助医生快速筛查高风险患者。

案例4:垃圾邮件分类
  • 场景:自动过滤垃圾邮件。

  • 输入特征:邮件文本的词频、发件人信誉、链接数量。

  • 输出:垃圾邮件概率。

  • 应用:若概率>0.5,标记为垃圾邮件。


4. 生产中的改进方法

处理类别不平衡
  • 加权损失函数:对少数类样本赋予更高权重。

  • 过采样(如SMOTE):生成少数类样本。

  • 阈值调整:根据业务需求调整分类阈值(如医疗场景需高召回率)。

正则化(防止过拟合)
  • L1正则化(Lasso):稀疏化权重,自动特征选择。

  • L2正则化(Ridge):限制权重幅度,提升泛化能力。

特征工程
  • 分箱(Binning):将连续特征(如年龄)分段为类别。

  • 交叉特征:组合多个特征(如“收入*负债比”)。

  • 文本特征:TF-IDF或词嵌入(Embedding)。


5. 与线性回归的区别

​​维度​​​​线性回归​​​​逻辑回归​​
​​任务类型​​回归(预测连续值)分类(预测概率/类别)
​​输出范围​​任意实数0~1之间的概率
​​损失函数​​均方误差(MSE)交叉熵损失(Log Loss)
​​激活函数​​Sigmoid函数

6. 优缺点

优点
  • ✅ 输出为概率,适合需要概率解释的场景(如风控)。

  • 可解释性强,权重反映特征对结果的影响方向(正/负)。

  • ✅ 计算高效,适合大规模数据(如互联网广告的实时预测)。

缺点
  • ❌ 假设特征与对数几率(Log Odds)呈线性关系,难以捕捉复杂非线性关系。

  • ❌ 对特征相关性和异常值敏感。

  • 默认只能处理二分类,多分类需扩展(如One-vs-Rest)


7. 代码工具示例(Python)


8. 适用场景总结

  • 推荐使用逻辑回归:

    • 二分类问题且需要概率输出(如金融风控)。

    • 特征与目标的对数几率呈近似线性关系。

    • 需要快速部署和模型解释性(如医疗诊断报告)。

  • 避免使用:

    • 特征与目标存在复杂非线性关系(需用树模型或神经网络)。

    • 数据维度极高且特征稀疏(如文本分类更适合用朴素贝叶斯或深度学习)。


一句话总结

逻辑回归是“用S形曲线做分类”的经典算法,凭借概率输出和可解释性,在金融、医疗、广告等领域广泛应用。


http://www.hkcw.cn/article/GJOPLohPiR.shtml

相关文章

交警系统“新基建”启示录:数据库一体化承载平台从破解困局到筑牢底座

前言 清晨7点,某市主干道的早高峰车流中,一辆套牌车刚刚驶过路口,指挥中心的预警信息已同步推送至执勤民警的警务终端。3分钟后,这辆违法车辆被精准拦截——这一场景的实现,得益于该市交警支队近期完成的核心数据库系统…

Jmeter逻辑控制器、定时器

目录 一、Jmeter逻辑控制器 ①IF(如果)控制器 作用: 位置: 参数介绍: 步骤: ②循环控制器 作用: 位置: 步骤: 线程组属性VS循环控制器 ③ForEach控制器 作用: 位置&am…

PH热榜 | 2025-06-01

1. Zown 标语:人工智能驱动的购房平台 介绍:Zown是唯一一个利用人工智能技术提供全面购房服务的平台。它自动完成 affordability(购房能力)审核、预批准、智能房源推荐和出价预测等步骤。在这个过程中,您可以将最多达…

NPM前端高频面试题解析

文章目录 基础概念篇使用技巧篇高级应用篇工程化篇安全与优化篇综合实战篇 基础概念篇 什么是NPM?它的主要作用是什么? 解析:NPM(Node Package Manager)是Node.js的包管理工具,用于安装、共享和管理JavaScript依赖。主要作用包括&…

电脑桌面便签软件哪个好?桌面好用便签备忘录推荐

在日常办公中,一款优秀的桌面便签工具能显著提升工作效率。面对市面上琳琅满目的选择,不少用户都难以抉择。如果你正在寻找一款兼具轻量化与多功能性的便签软件,那么集实用性与便捷性于一身的"好用便签",或许就是你的理…

数据质量管理平台的源头治理工作流程

依据相关的国家标准、行业标准和地方标准,建立科学、客观的数据质量评价体系,充分运用大数据相关技术和机器学习相关理论,实现海量信息的异常探查和智能修复,实时监控数据质量波动,以数据质量通报和考核为抓手&#xf…

RAG(检索增强生成)

什么是RAG? 当我们根据公司内的复杂文档开发一个项目的时候遇到一些问题我们直接去问大模型,大模型因为没有公司内相对应的文档数据所以它只会回答毫不相关的一些答案,这称之为“大模型出现了幻觉”,但当我们把问题和文档一起发送…

英文投资理财源码挖矿源码投资理财系统源码(源码下载)

英文投资理财源码挖矿源码投资理财系统源码 源码下载:https://download.csdn.net/download/m0_66047725/90946278 更多资源下载:关注我 图片:

Linux学习笔记:shell脚本篇(1)

什么是shell脚本 Shell脚本是可以运行的文本,其内容是由逻辑和数据组成,是解释型语言。shell 是一种脚本语言 脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行…

入户调查已开始 请积极配合 2025年人口跟访登记

入户调查已开始 请积极配合 2025年人口跟访登记!2025年第一次人口固定样本跟访调查于6月1日-6月25日入户登记如遇到调查员上门询问还请您多多配合与支持!来源 | 江西统计微信公众号责任编辑:0882

上市首秀后 霸王茶姬能睡个好觉了 强劲业绩支撑全球化布局

上市首秀后 霸王茶姬能睡个好觉了 强劲业绩支撑全球化布局!5月30日晚,霸王茶姬发布了上市以来首份季度财报,GMV、净收入和利润等关键经营数据均取得双位数增长。财报还披露,霸王茶姬小程序会员数突破1.9亿,品牌在海外市场也取得了显著成绩。近年来,新茶饮行业面临诸多挑战…

中国女生哈佛演讲引争议 回应质疑

中国女生哈佛演讲引争议 回应质疑!在哈佛大学毕业典礼上发表演讲的中国学生蒋雨融引起了广泛关注。6月2日凌晨,她在社交媒体上回应了相关争议。蒋雨融提到,她从小父母离婚并分居,跟随母亲四处搬家转学。初中时曾遭受霸凌,她只能通过阅读书籍来寻求慰藉。在美国求学期间,她…

韩新任总统或4日宣誓就职 李在明政策引关注

韩国总统大选即将于3日迎来正式投票。根据选前多项民调结果,共同民主党候选人李在明以明显优势领先国民力量党的金文洙和改革新党的李俊锡。在金文洙与李俊锡合并无望的情况下,李在明距离总统宝座仅一步之遥。2日举行的选前最后一场记者会几乎成了李在明的“总统政策说明会”…

端午最火的不是中超英超是苏超 比赛第一,友谊第十四

“友谊第一,比赛第二”这句话在一场足球比赛中被反复提及。最终,正确的口号是“比赛第一,友谊第十四”。这场被球迷称为“苏超”的足球联赛近日火出圈。“苏超”指的是江苏省首届城市足球联赛,由江苏省体育局与江苏省各设区市政府联合主办,江苏13个设区市各派一队参加。联…

【C盘瘦身】给DevEco Studio中HarmonyOSEmulator(鸿蒙模拟器)换个地方,一键移动给C盘瘦身

文章目录 一、HarmonyOSEmulator的安装路径二、修改路径 一、HarmonyOSEmulator的安装路径 之前安装了华为的DevEco Studio,当时没注意,后来C盘告急,想着估计是鸿蒙的模拟器占用空间比较大,一检查还真是躺在C盘。路径如下&#x…

HealthBench医疗AI评估基准:技术路径与核心价值深度分析(下)

医疗AI编程启示与开发优先级 HealthBench的评估结果为医疗AI的开发提供了丰富的启示和指导,特别是在编程和模型设计方面。通过深入分析这些启示,我们可以为医疗AI的未来发展提供有价值的参考和建议,推动医疗AI技术向更加实用、安全和可靠的方向发展。 开发优先级建议 基于…

打家劫舍与最长有效括号:动态规划与字符串处理的双重魅力

博客引言: 在我们的生活中,算法无处不在,它不仅帮助我们解决复杂的问题,还能揭示隐藏在数据背后的规律。今天,我们将通过两个有趣的问题,探索算法在动态规划与字符串处理中的智慧。 首先,我们…

Ⅲ-1.计算机二级选择题(三大结构之基本语句)

【注:重点题以及添加目录格式导航!!!】 【重点题】(第1题) 【重点题】(第5题) 【重点题】(第7题) 【重点题】(第11题) 【重点题】&…

demo_win10配置WSL、DockerDesktop环境,本地部署Dify,ngrok公网测试

win10配置WSL、DockerDesktop环境,本地部署Dify,ngrok分享测试 一、配置WSL 1.1 开启Hyper-V 安装WSL2首先要保证操作系统可以开启hyper-v功能,默认支持开启hyper-v的版本为:Windows11企业版、专业版或教育版,而家庭版是不支持…

【仿生机器人】刀剑神域计划——仿生机器人.亚丝娜

我在做仿生机器人头,硬件部分已经搭建完毕,包括头部和颈部,用的23个舵机驱动机器人做表情,也支持头部的旋转(就是颈部的功能),安装了摄像头在眼睛中,还有麦克风接受周围环境声音&…