数据分析中的插值与拟合(1) —— 插值与拟合

article/2025/6/23 12:06:59

引言

前面讲了很多结构力学,今天来讲讲有关数据分析的内容,后面有机会将会介绍更多相关的内容。数据分析在科学研究和工程应用中非常有用,有时也很好玩。

言归正传,在许多实际问题中,常常需要根据一些已有的数据,实现预测这些数据之外的信息,或解决与这些数据相关的一些问题。

在科学研究和工程计算中最常用的两种方法就是 插值和拟合

估值函数

总体来说,两种方法都是通过已有的离散点,在定义域中形成一个 估计函数,在描述已有数据的同时,预测未知数据;该函数可以是显示表达的,也可以是非显示表达的。插值与拟合的区别在于,插值方法需要估计函数严格经过已有数据;拟合方法则允许估计函数和已有数据存在一定误差,从而保证整体最优。

如何插值

在插值过程中,估计函数被称为插值函数,假设F插值函数{g}基函数族(有一定要求)a为待定系数,则插值函数可表示为

很显然,对于给定N个数据,如果给定了N个基函数g,在一般情况下,待定系数a可以唯一确定;读者可以考虑一下为什么?

估计函数用到的基函数族有很多形式,如多项式和三角函数等,本文主要介绍最常用的多项式形式。

多项式的基函数族通常按幂次由小到达排列,其中通常将g(x)=1视为幂次为0的常数项;通常基函数族都要都要包含常数项;从另一个角度看,基函数族从低频到高频排列,而低频分量总是要优先考虑的。

由以上分析可知,给定N的数据,最多可以确定N-1次多项式。

分段插值

尽管看起来很完美,但使用这种方法,对于一些函数插值可能会引起“震荡”现象,实际上很少采用直接多项式插值。

震荡是由高幂次的“高频”函数产生的,我们考虑将横轴划分为多个小段,由一系列低幂次的插值函数组成。

在分段过程中,发现多个低次函数插值会使得分割点出现不连续、不可导等现象。为了解决这个问题,我们在分割点处增加一些约束条件,如连续、可导和多阶可导;带来的代价就是幂次增大。

通常有台阶、线性、三次和 三次样条插值等几种形式;分别对应不连续、不可导、二阶不可导和三阶不可导。由于一般的物理方程都是不高于二阶系统的,因此,三次样条插值是应用非常广泛的一种插值方法。

插值的预测

得到插值函数后,可以预测其他未给定的数据;预测值和真实值之间的误差称为插值余项。

拟合

我们把已知数据“最外围”的区域称为边界,在边界内预测称为“内插值”,在边界外预测称为“外插值”;一般而言,内插值能保证良好的精度,而外插值相对不可控,可能会有非常大的误差。因此,如果需要边界处的数据,理论上需要增大数据范围,特别是分段插值,外围的数据通常是不可预测的。后面讲的拟合也有同样的问题。

拟合的方法应用非常广泛,数据处理、参数估计和统计学习等;可以说只要有数据处理的地方,就会用到拟合;当前非常热门的大数据、机器学习和人工智能本质上就是在寻找拟合函数。

拟合的课题太大,本文只简单介绍其基本思想,并探讨应用最广泛的基于 最小二乘线性回归,以后文章会有一系列相关的专题开展讨论。

什么是拟合

通过插值方法可以在一定程度上完成预测等任务,但是该方法本身是存在缺陷的。

现实中的数据实际上是包含 误差的,并且当数据量非常大时,插值的结果通常意义不大;此外,对于一些无法用显示函数表达,特别是“结构化”程度较低的数据,插值是无能为力的。考虑对其做一些调整,我们放弃估计函数必须通过已知数据的要求,允许存在一定的误差,同时目标是整体 最优。与插值类似,我们把这里的估计函数称为拟合函数。

这里涉及到两个问题:一是目标函数的选择,二是拟合函数形式的选择。

目标函数

由于拟合函数不需要经过已知数据,因此在已知数据位置,拟合函数的值与给定值存在一个误差,通常目标函数是由数据的误差以及位置组合构成的;更好一点的理解是由“加权”误差组合构造的,而权重则和数据在空间中的位置有关;一般目标函数是我们的求解目标。

这里先不考虑权重,假设每个数据是等价的,最常见的目标函数是由误差距离的和来定义;距离有多种定义方式,如0范数、1范数、2范数和无穷范数等;最常用的是2范数的空间,也就是 欧式空间距离

对应的方法即为最小二乘法。

这里多说一句,插值也可以看作是一种特殊的拟合;它要求误差函数在各种目标函数下都是0;当然,插值的实现过程是有一些条件的。

拟合函数的形式

目标函数确定了,接下来讨论拟合函数的形式。

拟合函数的形式有很多,线性、多项式和非线性函数等;甚至可以是一种结构,如树,支持向量机和神经网络等。

这里简单介绍两个概念:

  • 欠拟合:拟合函数的形式相比数据过于简单,不能反映真实情况;

  • 过拟合:拟合函数的形式相比数据过于复杂,“过”反映了真实情况,引入了过多的人为“噪声”和“结构”。

欠拟合:拟合函数的形式相比数据过于简单,不能反映真实情况;

过拟合:拟合函数的形式相比数据过于复杂,“过”反映了真实情况,引入了过多的人为“噪声”和“结构”。

欠拟合相对容易处理,而过拟合则是非常麻烦的问题;可以说在机器学习中,大量的工作都是在解决这个问题。

这里要提一下“奥卡姆剃刀”原理,说的是“如无必要”,“勿增实体”;它的意思是,如果能用简单的表达式,就不应该用更复杂的来替代,应该尽量把多余的去除。在拟合中就是要求我们尽可能用简单的方式描述问题,避免过拟合的情况出现。

基于最小二乘的线性回归

本文介绍最简单,并且应用最广泛的最小二乘线性回归;在这类问题中,拟合也称为回归。

将拟合的函数假设为

这个线性函数可以是直线、平面或者超平面,对应变量和系数的维度不同。

这里可以用两种视角看:

  • 把系数看成未知,数据看成已知,要使目标函数最小,可通过求解函数极值问题的方法,对系数求导形成线性方程组求解;

  • 把假设的线性函数看成函数空间,要使目标函数最小,可通过求解泛函极值问题的方法,用变分法形成线性方程组求解;

  • 二者等价。

把系数看成未知,数据看成已知,要使目标函数最小,可通过求解函数极值问题的方法,对系数求导形成线性方程组求解;

把假设的线性函数看成函数空间,要使目标函数最小,可通过求解泛函极值问题的方法,用变分法形成线性方程组求解;

二者等价。

此外,还能证明当误差符合高斯分布时,最小二乘法和极大似然估计是等价的;也就是说最小二乘法实际上假定了误差分布符合高斯分布;具体证明网上都可以找到,以后有机会也可以讲讲。

机器学习

在机器学习中,为了验证拟合函数的“ 泛化”性能,同时优化参数以及调整超参数;并不像传统的学科,把所有已知数据全用作拟合函数用;而是将其分割为训练集、验证集和测试集等,开展优化及评估。

“分类”在机器学习中是一类典型的问题,也可通过拟合的方式实现。此外,为了避免过拟合,大量的“ 正则化”方法应用其中。

其他应用

拟合的方法不仅可以预测数据,针对不同问题还可以有多种其他应用。

比如采集的数据理想状态是一个平面或者曲面,但实际上存在一定误差;可以通过拟合,先形成理想平面或者曲面,再计算RMS和偏离度等,评估其误差以及离散度。

IDDigitUnionTecHouse

CAE,仿仿


http://www.hkcw.cn/article/BJMqSPjbVL.shtml

相关文章

为了气死前男友,美国女孩和妹妹“裸体壮游”野外露出疗情伤

女子选择裸体壮游的方式疗情伤。(图/翻摄自Instagram/holdon2yerbutts) 美国35岁女兽医梅根(Megan Marie)为了治疗情伤,竟然和妹妹决定以“裸体壮游”的方式,踏上了长达数个月的漫长旅途,还将“野外露出”照片大分享到Instagram上,表示自己之所以要这样做是为了气死前…

贷助手贷款知识:贷款五级分类是什么?会上征信吗

贷款五级分类详解:银行如何评估贷款风险 贷款五级分类是商业银行用来评估贷款质量的重要工具。这一分类体系基于借款人的实际还款能力,将贷款分为五类:正常、关注、次级、可疑和损失。其中,后三类被统一归类为不良贷款。 一、正常贷款 正常贷款是指借款人能够按照合同规定正…

什么叫「洗水」与「养水」?

古人非常讲究泡茶用水,没有好水,又怎得好茶?但名茶难得,好水则更为不易,张大复在《梅花草堂笔谈》中说:「贫人不易致茶,尤难得水。」为此,古人就想到一些解决和变通的办法,不仅设法保持其水质,而且千方百计提高其水质。比较常见的就有「洗水」和「养水」之说。 洗水…

原创极致性能、游戏至上:iQOO Z9 Turbo首发评测

【【【前言:iQOO Z系列,久违地重回旗舰性能】】】 2020年5月,当时刚刚成立一年多的iQOO,发布了Z系列的首款机型iQOO Z1。平心而论,它是一款完全值得载入史册的产品。这不仅仅是因为其凭借着极其纯粹的高性能表现受到了大量玩家的喜爱,更重要的的是,作为天玑1000+的首发机…

原创胡军15岁儿子被偶遇,又高又壮,妥妥的小帅哥

胡军儿子胡皓康出生于2008年11月,目前才15岁,被网友偶遇在韩国旅游,胡军家孩子都很高,女儿可能170厘米以上,儿子绝对已经超过爸爸的185厘米。15岁胡皓康像一个半大小伙子,可能家庭营养丰富,所以长这么高。在学校一定是篮球主力,皮肤晒得很黑,很健康,也很阳光。 记得有…

原创荷兰还有六处海外领地?

荷兰位于欧洲西北部,地处大西洋北海东岸,面积约4.15万平方千米,其中约0.6万平方千米来自围海造田。荷兰人口约1794万(2023年),官方语言为荷兰语。荷兰海岸线有1075千米,平均海拔约2米,24%的面积低于海平面,1/3的面积仅高出海平面1米。荷兰筑坝为堤阻隔海水倒灌,同时将…

重点K线理论十大简介,精华中的精华

K线是一条柱状的线条,由影线和实体组成。影线的实体上方的部分叫上影线,下方的部分叫下影线;实体分阳线和阴线两种。通过K线图,我们能够把一定周期(日、周、月等)的市况变现完全记录下来。 K线理论就是研究K线的形状和组合为基础的,一条K线记录的是某只股票一天的价格变…

老外要跟你 XOXO,千万别理解成 XXOO!想歪就太尴尬了!

置顶【必克英语】,碎片时间提升自己 现代人的节奏越来越快,就连聊天发邮件都想言简意骇。文字能少多少就少多少,所以慢慢的越来越多人喜欢用缩写。 今天必叔将会教在工作和生活中经常会用到的英语缩写,会的同学就当复习;不会的同学就更应该学习!生活中的缩写 1. XOXO H…

海贼王中的超新星不仅仅十一位

: 在《海贼王》这部热血动漫中,超新星是一个特殊的群体,他们在短时间内迅速崛起,赏金超过1亿贝里的新人海贼。最初,这一词汇是由夏奇提出的,当时正有11位赏金超过1亿的海贼聚集在香波岛,准备进入新世界。然而,实际上,超新星的数目远不止这个数字。接下来,让我们来了解…

智能会议系统(提高会议效率的智能会议系统)

在这个科技飞速发展的时代,智慧化会议室设计已经成为企业不可或缺的一部分。它不仅可以提高会议效率,还可以让与会者更加舒适、便捷地参与会议。 曾经的会议室传统会议室的痛点 随着智慧会议室的普及,以“互联网+会议”的新办公场景运用已悄然问世。 现代智慧会议室 1.无线投…

原创辛纳女友卡林斯卡娅势不可挡,击败阿扎伦卡晋级决赛,球迷疯狂期待温网表现

世界女子网坛有诸多美丽运动员,像备受瞩目的莎拉波娃等,凭借出众的外貌广受球迷青睐。当谈及世界女子网坛最美选手时,有网友可能会把票投给新娜的女友卡林斯卡娅。作为俄罗斯选手,卡林斯卡娅继承了俄罗斯选手独有的风采。尽管在整体实力上与世界顶尖选手存在一定差距,但近…

王者当前版本最强五大野王!选择他们赢一半,甚至不用过脑

要说王者荣耀单排最容易上分的位置,应该就是打野了吧,打野玩家能够凭借一己之力,推动整场游戏的进度,但是打野位也是最容易背锅的一个位置。想要上分自然就要跟着版本走,当前版本最强五大野王已经出炉,在排位中能够选出一个就已经赢了一半,有的英雄玩的时候甚至有些无脑…

什么样的石头是差石头?这几点了解一下!

客观的讲,每个人的评价标准是不一样的,既使是同一块石头,同一个人在不同时期的评价标准也是不一样的。事物都是动态的,石界也在不断的推陈出新,向前发展,赏石的标准也在不断的调整。但是,不管怎么变化,真正差的石头永远变不成好石头,丑小鸭永远变不成白天鹅。而且,可…

原创人杰地灵的出处、释义、典故、近反义词及例句用法 - 成语知识

人杰地灵,人有英杰;地有灵秀之气;指杰出的人物出生或到过的地方;就会成为名胜地区。后多指杰出人物生于灵秀之地。出自:唐 王勃《滕王阁诗序》:“人杰地灵,徐孺下陈蕃之榻。”近义词有:藏龙卧虎、钟灵毓秀,反义词有:绸人广众、人稠物穰,人杰地灵是中性成语,联合式成…

颠覆传统餐饮业的黑科技,智慧餐厅餐饮管理系统

智慧餐厅餐饮管理系统是一套集成了信息技术和管理理念的餐厅运营系统。它通过对餐厅的各个环节进行数字化、智能化的改造,实现了从顾客点餐、支付、用餐到厨房出品、库存管理等全过程的自动化和智能化。智慧餐厅餐饮管理系统的优势1. 就餐模式创新新型的食堂引入多种新型就餐模…

晚清四川睁眼看世界第一人,曾提出“奇袭”一国,他后来的结局怎么样了?

晚清有一个奇人,他提出了一个“奇袭日本”的惊人计划,得到了清廷两江总督刘坤一、朝廷重臣张之洞及部分外国人的支持和帮助,并部分付诸了实施。他就是晚清奇人、清廷驻英法意比四国公使参赞、四川富顺人宋育仁。 宋育人画像 1894年,清廷派宋育仁随公使龚照瑗出使欧洲。宋育…

淘宝商家买VR眼镜送AV影片,律师:已涉嫌犯罪

近段时间,坊间有不少电商卖VR眼镜赠送AV视频的传闻。当记者在国内两大电商网站上输入“VR眼镜”时,弹出数千家店铺,除了少量较昂贵的VR一体机外,大部分是廉价的手机盒子VR;而店铺的封面介绍多为“VR眼镜+充满魅惑的女郎+资源”模式。▲网店老板与买家对话。▲买VR眼镜竟送…

保持严打高压态势!王小洪以这一身份出席重要会议

保持严打高压态势!王小洪以这一身份出席重要会议 撰文 | 余晖 高语阳 据央视报道,12月7日,全国禁毒工作电视电话会议在京召开,国务委员、国家禁毒委员会主任王小洪出席并讲话。 上述消息显示,王小洪已出任“国家禁毒委员会主任”。 王小洪指出,坚定不移走中国特色毒品问题…

老美爪牙戴琦:代美讨华深以为傲!为表忠心不惜向国人下狠手

"老美爪牙"戴琦:"代美讨华"深以为傲!为表忠心不惜向国人下狠手 为了给您带来更好的互动体验,麻烦您在阅读此文后,点击"关 注、点 赞"互动! 您的"点 赞、关 注"是对小编莫大的支持与鼓励,更多精彩内容将持续更新... 文|王亦 编辑…

人这一辈子,一定要在三伏天看一次雾凇!

广东靓仔第一次看雪,不是在冬天。 而是在东北吉林的三伏天。吉林市盛夏里的雾凇景观。苍雁 摄 在吉林的冬天看过雾凇,这不稀奇。 在吉林的三伏天穿棉袄、看雾凇、滑雪圈, 你体验过吗? 不服可以试试。游客在吉林市的夏天“滑雪圈”。苍雁 摄 “雾凇之都”吉林市的雾凇已实现…