机器学习----决策树

article/2025/7/23 9:06:29

一、决策树简介

from sklearn.tree import DecisionTreeClassifier

from sklearn.tree import plot_tree

        决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果。

决策树的建立过程(三要素):

1.特征选择:选择较强分类能力的特征;

2.决策树的生成:根据选择的特征生成决策树;

3.决策树的剪枝:决策树也容易过拟合,采用剪枝的方法缓解过拟合。

二、信息熵

“信息熵”:是信息论中的一个核心概念,它本质上是对不确定性或信息量的度量。

信息熵越大,信息的不确定性越大,信息的纯度越低,分类的效果越差;

信息熵越小,信息的不确定性越小,信息的纯度越高,分类的效果越好。

H\left ( x \right )=-\sum_{i=0}^{n}P\left ( x_{i} \right )log_{2}P\left ( x_{i} \right )

其中P\left ( x_{i} \right )表示数据中x_{i}类别出现的概率,H\left ( x \right )表示数据的信息熵,单位是比特。

三、ID3决策树

1.特征选择

信息增益:g(D,A)=H(D)-H(D|A),信息增益 = 熵 - 条件熵

条件熵:子集1占比*子集1的熵作为子集1的结果,然后对所有计算结果求和。

2.决策树的生成

①计算每个特征的信息增益

②使用信息增益最大的特征将数据集拆分为子集

③使用该特征(信息增益最大的特征)作为决策树的一个节点

④若该节点已成功分类(节点中只有一个类的样本)或该节点达到停止生长条件,则停止生长,否则使用剩余特征对子集重复上述(1,2,3)过程。
 

3.不足

基于信息增益计算的方式,会偏向于选择种类多的特征作为分裂依据。

四、C4.5决策树

1.特征选择

信息增益率:信息增益率=信息增益/特征熵。

特征熵(也称惩罚系数):-\sum_{i=0}^{n}(特征子集1的占比*log_{_{2}}(特征子集1的占比))

2.决策树的生成

类似ID3,只是调整为基于信息增益率进行特征选择,选择增益率大的特征作为分裂依据。

五、CART决策树

Cart模型是一种决策树模型,它即可以用于分类,也可以用于回归。

Cart回归树使用平方误差最小化策略,

Cart分类生成树采用的基尼指数最小化策略。

1.Cart分类树

        特征选择:基尼值:

                          基尼系数:

        决策树的生成:类似ID3,调整为基于基尼系数进行特征选择。

2.Cart回归树

特征选择:最小化回归树预测结果的平方误差。

决策树的生成:1.选择一个特征,将该特征的值进行排序,取相邻点计算均值作为待划分点
                         2.根据所有划分点,将数据集分成两部分:R1、R2
                         3.R1 和 R2 两部分的平方损失相加作为该切分点平方损失
                         4.取最小的平方损失的划分点,作为当前特征的划分点
                         5.以此计算其他特征的最优划分点、以及该划分点对应的损失值
                         6.在所有的特征的划分点中,选择出最小平方损失的划分点,作为当前树的分裂点

六、三种决策树的对比

1.ID3:分支方式(指标)是信息增益

        特点:①ID3只能对离散属性的数据集构成决策树

                   ②倾向于选择取值较多的属性

2.C4.5:分支方式(指标)是信息增益率

        特点:①缓解了ID3分支过程中总喜欢偏向选择值较多的属性

                   ②可处理连续数值型属性,也增加了对缺失值的处理方法

                   ③只适合于能够驻留于内存的数据集,大数据集无能为力

3.CART:分支方式(指标)是基尼指数

        特点:①可以进行分类和回归,可以处理离散属性,也可以处理连续属性

                   ②采用基尼指数,计算量减小

                   ③一定是二叉树

七、剪枝

概念:决策树剪枝(Pruning)是防止决策树过拟合、提高模型泛化能力的关键技术。

问题:当决策树生长得太深、分支太多时,它会过度拟合训练数据中的噪声和细节,导致在未知数据上表现很差。

方案:剪枝通过移除对整体预测贡献不大或可能导致过拟合的部分子树或节点来解决这个问题。

什么是决策树的剪枝:把子树的节点全部删掉,并将该节点作为叶子节点。

决策树剪枝方法:1.预剪枝:在树生长过程中提前停止分裂,比如提前限制树的最大深度(优点:计算效率高,训练快;缺点:可能过早停止,错过重要模式);

2.后剪枝:先让树完全生长,再自底向上修剪子树(优点:保留更多有效结构,泛化性能通常更好;缺点:计算开销大)。


http://www.hkcw.cn/article/QFqBtjFQhr.shtml

相关文章

天问二号问天之旅第一站拜访谁 探秘地球准卫星

我国行星探测工程天问二号探测器在西昌卫星发射中心成功发射,开启了“问天”之旅。这次任务的目标之一是小行星2016HO3。根据命名规则,这个名称包含了发现年份、时间段和顺序的信息。选择探测小行星2016HO3的原因在于它保留了太阳系诞生之初的原始信息,是研究太阳系早期物质…

WebStorm创建文件和目录

目录 创建文件和目录创建空文件从模板创建文件创建目录 创建文件和目录 创建空文件 在“项目”工具窗口中,选择要在其中创建文件的目录,按 Alt Insert,然后从列表中选择“File”。在打开的“New File”对话框中,输入文件名和扩…

【js逆向】信息公示平台搜索滑块逆向

目标:实现搜索后,滑块验证,得到结果。 网站:aHR0cHM6Ly94eGdzLmNoaW5hbnBvLm1jYS5nb3YuY24vZ3N4dC9uZXdMaXN0 1. 输入搜索关键字,触发滑块验证 a和b后面要用到的参数,c中的cutImage和oriImage是背景和缺口…

笔试模拟 day16

观前提醒: 笔试所有系列文章均是记录本人的笔试题思路与代码,从中得到的启发和从别人题解的学习到的地方,所以关于题目的解答,只是以本人能读懂为目标,如果大家觉得看不懂,那是正常的。如果对本文的某些知…

AI预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月1日第95弹

从今天开始,咱们还是暂时基于旧的模型进行预测,好了,废话不多说,按照老办法,重点8-9码定位,配合三胆下1或下2,杀1-2个和尾,再杀4-5个和值,可以做到100-300注左右。 (1)定…

AgentThink:在自动驾驶的一个统一框架,视觉-语言模型中工具增强的思维链推理

25年5月来自清华大学、Mcgill大学、小米公司和 Wisconsin(Madison)大学的论文“AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving”。 视觉语言模型 (VLM) 在自动驾驶…

印度男子泰国景区摸老虎屁股遭扑咬 不当抚摸惹怒老虎

近日,一名印度游客在泰国普吉岛的热门景点被老虎袭击。视频中能听到现场惨叫声不断,拍摄画面也变得晃动模糊。据视频发布者称,该男子受了轻伤,成功逃脱。有网友指出,猫科动物通常不喜欢被抚摸背部尤其是靠近臀部的位置,这种行为可能让老虎感到不适。在泰国一些景区,游客…

进程信号简述

01. 信号产生 生活中的信号类比(交通信号灯、警报),当产生这些信号时,我们会立马想到对应的动作。在Linux中,信号是事件发生对进程的通知机制亦称软件中断,由操作系统内核、进程本身或者其他进程向目标进程异步事件发送机制(即收…

庖丁解牛BLIP2

庖丁解牛BLIP2 更好的阅读体验,欢迎访问 庖丁解牛BLIP2 获得 论文: https://arxiv.org/abs/2301.12597 代码: https://github.com/salesforce/LAVIS/tree/main/projects/blip2 背景 多模态模型在过往发展的过程中,曾有一段时期一直在追求更大的网络架构…

中国女排世界联赛北京站名单出炉 18名运动员备战

2025世界女排联赛北京站将于6月4日至8日在北京国家体育馆举行,参赛队伍包括中国、土耳其、波兰、比利时、泰国和法国。中国排协于6月2日公布了参加北京站比赛的中国女排名单,共有18名运动员。主攻位置有吴梦洁、庄宇珊、唐欣、董禹含;副攻位置有王媛媛、万梓玥、单琳倩、陈厚…

乌克兰摧毁41架俄军战略轰炸机 乌方称“蛛网”行动成功

乌克兰安全局内部人士透露,代号“蛛网”的特别行动历时18个月的策划和实施,成功摧毁了41架俄军战略轰炸机。此次行动由泽连斯基亲自协调,安全局局长马柳克率队直接执行。知情人士称,该行动在后勤保障方面极具挑战性,包括通过秘密渠道向俄境内输送FPV无人机,并转运移动木制…

张家界溶洞垃圾堆7层楼高 谁该脸红 多年排污为何无人察觉

近日,有博主发布视频称张家界市慈利县一处天然溶洞遭人为排污,导致宝贵的溶洞变成“粪坑”。视频显示,溶洞内出现黄绿色液体。该溶洞位于通津铺镇长峪铺村杨家坡,系喀斯特地貌,垂直深度约150米,洞内存有陈年垃圾和污水,近期因暴雨导致洞内污水上涨外溢入溇水。据拍摄的网…

中国代表香会反驳对华无端指责 坚决抵制煽动对抗

针对美西方等个别国家在新加坡香格里拉对话会上对中国的无端指责,中国人民解放军国防大学代表团团长胡钢锋表示,不接受对中方的无端指责,有关内容无中生有,煽动对抗,企图搞乱亚太,不得人心,也不可能得逞。责任编辑:zhangxiaohua

河南七旬老人捡烟花被崩伤 意外引发广泛关注

5月31日,河南平顶山鲁山县发生一起意外事件,一位7旬老人在捡拾烟花筒时头部被崩伤。此事被目击者拍摄并上传网络后引起广泛关注。老人的亲属杨先生透露,医生表示老人右眼无法保住,脑部也受了伤,后续治疗费用预计近10万元。目前,老人仍在鲁山县人民医院重症监护室接受观察…

三层交换机模拟搭建实际网络实验

1、某企业,下有5个部门,分别是市场部16人、财务部22人、生产部110人、研发部24人、行政部28人门。现向运营商申请了一段ip地址:100.xxx.1.0/24(XXX 为学生学号中的唯一标识部分),如果你是该公司的网管&…

在哈佛毕业礼演讲的中国女孩谈古诗 传递多元包容理念

中国女孩江玉蓉在哈佛毕业典礼上发表演讲,传递多元包容理念。当地时间5月29日,她在哈佛大学的毕业典礼上作为毕业生代表之一发言,引起广泛关注。江玉蓉来自中国青岛的一个普通家庭,通过不懈努力和自身天赋,获得了威尔士卡迪夫一所高中的全额奖学金,并在杜克大学完成了本科…

Baklib赋能企业内容中台构建

Baklib构建内容中台路径 Baklib作为智能内容管理工具,通过多终端适配系统将企业分散的知识资产进行云端聚合,形成统一的内容资源池。其用户需求分析引擎可深度解析访问行为数据,帮助企业快速定位核心知识模块,例如产品文档、培训…

美防长香会炒“中国威胁”有何企图 转移负面舆情

美国国防部长赫格塞思于5月31日在新加坡参加香格里拉对话会时发表讲话,极力渲染所谓“中国威胁”,以推动盟国增加军费开支。分析人士认为,赫格塞思此举可能是为了转移外界对群聊泄密事件等负面舆情的关注。对于赫格塞思的涉华消极言论,中国外交部发言人回应称,台湾问题纯属…

恶意软件清理工具,让Mac电脑安全更简单

​你的Mac最近是不是开始表演"电子迷惑行为"?浏览器主页突然变成澳门赌场,风扇转得比直升机螺旋桨还猛......恭喜你!可能中奖获得"恶意软件大礼包"!别慌,今天就教你用恶意软件清理工具化身数字特工…

Python-14(异常)

处理异常 try-except语句 该语句用来捕获异常。引发异常后的操作是执行except语句的异常处理代码,而不是直接抛出一段红色的输出。如果try语句没有检测到异常,那么就不会执行except中的内容。 try: 检测范围 except[expression[as identifier]]: 异常…