机器学习-线性回归基础

article/2025/8/22 1:54:56

一、什么是回归

        依据输入x写出一个目标值y的计算方程,求回归系数的过程就叫回归。简言之:根据题意列出方程,求出系数的过程就叫做回归。

        回归的目的是预测数值型的目标值y,分类的目的预测标称型的目标值y。

二、线性回归

2.1线性回归的定义

        线性回归是一种通过历史数据寻找变量间线性规律的统计方法。它假设因变量(如销售额)与自变量(如广告费)之间存在“直线关系”,并通过拟合这条直线来预测未来结果。例如:广告费越高,销售额可能越高,这种趋势可用一条直线表示。

2.2线性回归与机器学习的关系

        线性回归是机器学习中一种有监督学习(数据有x,有y)的算法,回归问题主要关注的是因变量--y(需要预测的值)和一个或多个数值型的自变量--x(特征变量)之间的关系。

        因变量和自变量之间的关系:即模型,model,就是我们要求解的系数。

2.3线性回归在数学和ai上的区别

        上面的方程式我们人类很多年以前就知道了,但是不叫人工智能算法,因为数学公式是理想状态,是100%对的,而人工智能是一种基于实际数据求解最优最接近实际的方程式,这个方程式带入实际数据计算后的结果是有误差的。

        举个例子:在日常生活中,我们选择吃烤肠的话,一般是3元一根,根据数学公式可得y=3x,如果你选择吃两根烤肠,理论上按照数学公式来说,你应该支付6元。但是日程生活中大部分商家为了吸引顾客,都是五元两根烤肠,这就与理论数学不一致。计算的结果存在误差。

2.4线性回归的目的

  • 预测连续值‌:比如预测房价、降雨量等数值型结果。
  • 量化变量关系‌:判断广告费对销售额的影响有多大,指导资源分配。

2.5线性回归的分类 

  • 一元线性回归‌:仅1个自变量(如广告费)和1个因变量(销售额),对应二维直线。

例如:

比如1个包子是2元 ,3个包子是6元 ,预测5个包子多少钱?

列出方程: y=wx+b,我们知道这是初中学习的一元线性方程‌(或‌一次函数‌),现在进行求解,

带入(1,2),(3,6):

2=w*1+b

6=w*3+b

轻易求得 w=2 b=0

模型(x与y的关系): y=2*x+0,现在我们就求得了回归系数w=2,b=0,完成了线性回归。

  • 多元线性回归‌:多个自变量(如广告费+季节+促销),对应多维空间中的“超平面”。

本文文章内容的第4项会进行介绍。

2.6如何实现线性回归

  • 找最合适的直线‌:这条直线需满足“所有点到直线的总误差最小”,常用最小二乘法计算,后续也会提及。

如图,我们要根据植物的生长温度x,去预测生长高度y,我们要找出最合适的直线拟合数据。使该直线能尽可能准确的描述环境温度与植物高度的关系。

  • 参数意义‌:直线方程为 Y = 截距 + 斜率×X。

三、损失函数

3.1引入

        根据上一个没解决的案例《植物温度与高度之间的关系》,我们继续拓展相关知识:

数据: [[4.2, 3.8],[4.2, 2.7],[2.7, 2.4],[0.8, 1.0],[3.7, 2.8],[1.7, 0.9],[3.2, 2.9]]

我们假设这个最优的方程是生活中无法满足实际结果的y=wx+b,这样的直线有无数条,因为现在w,b暂时没有确定,我们画出随意三条直线看看拟合情况:

 三条直线中选最优直线的方式:均方差

让直线的预测值y'与真实值y对比连竖直线,这个数值线的距离越小,效果越好,这条直线就是最优直线。

3.2误差

        在上图中,我们可以发现大部分实际点并没有在线上,因此他们之间的这个竖直竖线就是误差。预测值根据公式y=wx+b推理,

把x_1,x_2,x_3...带入进去 然后得出:

y1’,=wx_1+b

y2‘,=wx_2+b

y3’,=wx_3+b

...

第一条竖线的大小:计算y1-y1‘,表示第一个点的真实值和计算值的差值 。之后的竖线大小同理:把第二个点,第三个点...最后一个点的差值全部算出来。

3.2.1 定义

        ‌误差‌(Error)指的是 ‌预测值‌ 和 ‌真实值‌ 之间的差距。

3.2.2 公式

3.3损失

在上图中,有的点在上面有点在下面,如果直接相加有负数和正数会抵消,体现不出来总误差,平方后就不会有这个问题了。

3.3.1 定义

        ‌损失(Loss)‌ 是模型预测结果偏离真实值的 ‌量化指标‌,用来衡量模型预测的 ‌“错误程度”‌。

3.3.2 公式

3.4损失函数

现在我们已经得到了总误差,但是总误差会受到样本点的个数的影响,样本点越多,该值就越大,所以我们可以对其平均化,求得平均值,这样就能解决样本点个数不同带来的影响。

在公式中Yi表示实际值,wXi+b表示预测值。用减法是因为他们要得到损失。

3.5求最小损失函数的方法

损失函数越小,我们得到的效果就越好。

(1)初中韦达定理 --抛物线求顶点(-b/2a)

(2)高中求导数值为0

3.6小结

        损失即为总误差,误差就是真实值与理想值(预测值)之差,为了避免负数出现的情况下,可以用绝对值或者平方的形式处理这个差值。

        函数即自变量(x)与因变量(y)之间的关系.

        损失函数:量化模型预测与真实结果之间的差距‌。即要找到一个数学关系(模型),让x代入关系式,求得不同的y',让y'与真实值y做差。计算均方差MSE,求法为对所有误差的平方求和再除以样本点个数,得到一个开口向上的抛物线函数。

        针对b=0时,求最小的w可以用韦达定理(-b/2a)或求导得到。

        w越小,带入原函数y=wx,直线离真实点就越近。w越大,带入原函数y=wx,直线离真实点就越远。

        权重ω表示输入特征对输出结果的影响程度,决定了回归直线的斜率。

四、多参数回归

        在上一个案例中,我们讨论的是植物生产高度与温度的关系,但是实际上,植物高度的不仅仅有温度影响,还有海拔,湿度,光照等等因素。此时特征就不止一个了,列的方程也不止一个了。因此针对多参数回归有另一解决方法:

题目要求我们根据 各情况求最后一个人的健康程度,这是典型的多参数回归问题。

但是会发现,很难求解(如果非要硬算,也可以,那你加油!)

 根据前面说的内容,我们假设这个最优方程为:

 同样推到公式,将loss函数展开为与w权重系数有关的式子,如下形式:

 此时若能求的w,就能计算出最后一个人的健康程度。

关于如何求多参数回归的系数,下一博客再进行拓展。


http://www.hkcw.cn/article/cTidPqIwkL.shtml

相关文章

什么是MSBC

mSBC(Modified SubBand Coding)是蓝牙协议中用于语音通话的一种音频编码格式,专为HFP/HSP(蓝牙免提/耳机规范)设计。它是对SBC(SubBand Coding)的改进版本,核心目标是在有限带宽下保…

2024长春全国邀请赛CCPC

文章目录 G - Platform GameI - The Easiest ProblemL - Recharge G - Platform Game 题目来源:G - Platform Game 解题思路 可以先对每个平台的高度从大到小排序,高度相同再根据横坐标从左往右排序,依次遍历每个平台,如果高…

王树森推荐系统公开课 排序06:粗排模型

shared bottom 表示神经网络被所有特征共享。精排模型主要开销在神经网络,神经网络很大且很复杂。 每做一次推荐,用户塔只做一次推理。物品塔存放入向量数据库。 后期融合模型常用于召回,前期融合模型常用于精排。 物品塔短时间内比较稳…

中国车企经营状况几何 高负债背后的研发投入

近日,“车圈恒大”这一话题在舆论界引起广泛关注,资本市场因此出现连续震荡,汽车股集体下跌。恒大的问题主要在于其“高负债、高周转、高风险”的扩张模式,最终导致资金链断裂。汽车行业是否存在类似现象?这种论调能否作为行业洞察?从可收集到的上市整车公司公开财务数据…

RPG16.重攻击

1.创建GA_HeavyAttackMaster 2.打开,然后设置实例化策略为每个实例化Actor 设置标签 创建子类GA_HeavyAttack_Axe,设置子类的标签 父类里添加print输出用于调试 3.添加输入,复制LightAttack,重命名 打开DA_InputConfig,添加输入…

Dify中 SYSTEM, USER, ASSISTANT 的关系、职责与使用方法

在Dify这类对话式AI应用构建平台中,SYSTEM, USER, ASSISTANT 这三种消息类型共同定义了与大型语言模型(LLM)交互的结构和上下文。它们的关系可以理解为: SYSTEM: 扮演着“导演”或“场景设定者”的角色。USER: 扮演着“提问者”或“任务发起者”的角色。ASSISTANT: 扮演着“…

藏海传全面登顶 肖战演技获肯定

藏海传全面登顶 肖战演技获肯定!《藏海传》全面登顶,肖战用实力证明了自己不仅仅是流量,也打破了很多人对流量的偏见,肖战演技值得被肯定藏海传全面登顶 肖战演技获肯定。责任编辑:0882

DFS:从入门到进阶的刷题指南

目录 一、基础DFS:递归实现、状态标记、回溯 全排列问题 组合问题 子集问题 二、网格DFS:二维矩阵遍历、连通块计数、方向数组 岛屿数量 单词搜索 被围绕的区域 三、 记忆化DFS:动态规划DFS,缓存中间结果 斐波那契数列&a…

《P2324 [SCOI2005] 骑士精神》

题目描述 输入格式 第一行有一个正整数 T(T≤10),表示一共有 T 组数据。 接下来有 T 个 55 的矩阵,0 表示白色骑士,1 表示黑色骑士,* 表示空位。两组数据之间没有空行。 输出格式 对于每组数据都输出一行。如果能在…

XMOS以全新智能音频及边缘AI技术亮相广州国际专业灯光音响展

全球领先的边缘AI和智能音频解决方案提供商XMOS于5月27-30日亮相第23届广州国际专业灯光、音响展览会(prolight sound Guangzhou,以下简称“广州展”,XMOS展位号:5.2A66)。在本届展会上,XMOS将展出先进的音…

吉林大学操作系统上级实验四(hash存储讲解及顺序存储文件管理实现)

此章节书上内容既包括文件操作,又包括hash存储的实现,较复杂。 先讲解一下涉及的文件操作: 文件操作: 一.creat系统调用 图一 create函数原型(图中pachname应为pathname) 当调用creat函数时,它会尝试创建一个名为p…

消息队列-kafka为例

目录 消息队列应用场景和基础知识MQ常见的应用场景MQ消息队列的两种消息模式如何保证消息队列的高可用?如何保证消息不丢失?如何保证消息不被重复消费?如何保证消息消费的幂等性?重复消费的原因解决方案 如何保证消息被消费的顺序…

基于Docker和YARN的大数据环境部署实践最新版

基于Docker和YARN的大数据环境部署实践 目的 本操作手册旨在指导用户通过Docker容器技术,快速搭建一个完整的大数据环境。该环境包含以下核心组件: Hadoop HDFS/YARN(分布式存储与资源调度)Spark on YARN(分布式计算…

图片压缩工具 | 发布到咸鱼并配置网盘自动发货

OPEN-IMAGE-TINY,一个基于 Electron VUE3 的图片压缩工具,项目开源地址:https://github.com/0604hx/open-image-tiny 在上一篇文章ElectronVue3Rsbuild开发桌面应用中,我们已经完成了程序的开发,可以发布给别人使用啦…

ASP.NET Core OData 实践——Lesson7使用Reference增删改查一对多Navigation Property(C#)

大纲 主要模型设计支持的接口控制器设计数据源查询(GET)查询基类类型Entity的导航属性查询派生类型Entity的导航属性查询基类类型Entity的导航属性集合中指定Entity查询派生类类型Entity的导航属性集合中指定Entit 新增(POST)和 完整更新(PUT)向基类类型Entity的导航属性建立或…

无需自建高防:APP遭遇DDoS的解决方案

2021年,某知名电商平台在"618"大促期间遭遇DDoS攻击,支付系统瘫痪近2小时;2022年,一款热门手游在新版本上线时因CC攻击导致服务器崩溃。 据观察,电商大促、暑期流量高峰和年末结算期等关键商业周期&#xf…

满天星之canvas实现【canvas】

展示 文章目录 展示Canvas 介绍【基础】简介兼容性关键特性注意事项应用场景:基本示例 满天星代码实现【重点】代码解释 全量代码【来吧,尽情复制吧少年】html引入JS代码 参考资源 Canvas 介绍【基础】 简介 Canvas是一个基于HTML5的绘图技术&#xff0…

余承东揭秘16:10屏幕比例设计原因 以用户体验定义手机形态

华为Pura X系列阔折叠手机于今年3月正式发布,新机出厂搭载鸿蒙HarmonyOS 5系统,首发鸿蒙AI和全新小艺,定价7499元。华为常务董事、终端BG董事长余承东解释了Pura X阔折叠手机采用16:10屏幕比例的原因。他表示,近年来手机进入全面屏时代,业界为了追求更大的屏幕并解决散热问…

高考人数8年来首降释放什么信号 适龄人口减少成主因

高考人数8年来首降释放什么信号 适龄人口减少成主因!5月28日,教育部公布2025年全国高考报名人数为1335万人,比去年的1342万人减少7万人。这是自2017年以来高考报名人数首次出现下降。近年来,高考人数的变化趋势备受社会关注。过去十年中,2015年至2017年的高考报名人数保持…

北京密云一女孩手指卡在椅缝中,消防员紧急破拆救援 近期多起类似事件提醒注意安全

近日,北京市密云区消防救援支队接到多起手指被卡的警情。5月28日下午,一名学生手指卡在座椅铁架的小孔里,消防员迅速到场,先拆解座面木板,再用剪切钳和钢锯小心作业,最终成功帮助学生脱困。次日上午,另一名学生手指被卡在塑料文具尺子孔内,消防员利用钳子在尺子上剪出一…