【机器学习基础】机器学习入门核心算法：决策树（Decision Tree）-海口c网

【机器学习基础】机器学习入门核心算法：决策树（Decision Tree）

article/2025/8/21 13:59:09

在这里插入图片描述

机器学习入门核心算法：决策树（Decision Tree）

一、算法逻辑
- - 1.1 基本概念
  - 1.2 算法流程
二、算法原理与数学推导
- - 2.1 特征选择指标
  - - 信息熵（ID3算法）
    - 信息增益（Information Gain）
    - 信息增益率（C4.5算法）
    - 基尼系数（CART算法）
  - 2.2 决策树生成算法
  - 2.3 剪枝处理
  - - 预剪枝（Pre-pruning）
    - 后剪枝（Post-pruning）
三、模型评估
- - 3.1 评估指标
  - 3.2 学习曲线分析
四、应用案例
- - 4.1 鸢尾花分类
  - 4.2 金融风控评分卡
五、经典面试题
- - 问题1：ID3、C4.5、CART的区别？
  - 问题2：如何处理连续特征？
  - 问题3：决策树的优缺点？
六、高级优化技术
- - 6.1 多变量决策树
  - 6.2 增量学习
  - 6.3 异构决策树
七、最佳实践指南
- - 7.1 参数调优建议
  - 7.2 特征处理技巧
总结与展望

一、算法逻辑

1.1 基本概念

决策树是一种树形结构监督学习算法，通过递归地将特征空间划分为互不重叠的区域来完成分类或回归任务。核心组成元素：

根节点：包含全体数据的起始节点
内部节点：表示特征判断条件的分支节点
叶节点：存放最终决策结果的终端节点

关键特点：

天然支持可解释性（白盒模型）
可处理数值型和类别型数据
通过树深度控制模型复杂度

1.2 算法流程

构建决策树的递归过程：

选择当前最优划分特征
根据特征取值分割数据集
对每个子集重复上述过程直到：
- 节点样本纯度达到阈值
- 达到最大树深度
- 样本数量小于分裂阈值

决策过程可视化：

是否年龄>30?
├── 是 → 是否有房产?
│   ├── 是 → 批准贷款
│   └── 否 → 拒绝贷款
└── 否 → 收入>50k?├── 是 → 批准贷款└── 否 → 拒绝贷款

二、算法原理与数学推导

2.1 特征选择指标

信息熵（ID3算法）

衡量数据集混乱程度：
$-\sum_{k=1}^K p_k \log_2 p_k$
其中 $p_k$ 为第 $k$ 类样本的比例

信息增益（Information Gain）

$\sum_{v=1}^V \frac{|D^v|}{|D|} Ent(D^v)$
缺点：偏向选择取值多的特征

信息增益率（C4.5算法）

$Gain\_ratio(D, a) = \frac{Gain(D, a)}{IV(a)}$
其中固有值：
$-\sum_{v=1}^V \frac{|D^v|}{|D|} \log_2 \frac{|D^v|}{|D|}$

基尼系数（CART算法）

$\sum_{k=1}^K p_k^2$
基尼指数：
$Gini\_index(D, a) = \sum_{v=1}^V \frac{|D^v|}{|D|} Gini(D^v)$

2.2 决策树生成算法

ID3算法伪代码：

def create_tree(D, A):if D中样本全属于同一类别C:return 叶节点标记为Cif A = ∅ or D在所有特征上取值相同:return 叶节点标记为D中最多类选择最优划分特征a*生成分支节点：for a*的每个取值v:Dv = D中在a*上取值为v的子集if Dv为空:分支标记为D中最多类else:递归调用create_tree(Dv, A-{a*})return 分支节点

2.3 剪枝处理

预剪枝（Pre-pruning）

在树生成过程中提前停止分裂：

设置最大深度max_depth
设置节点最小样本数min_samples_split
设置信息增益阈值min_impurity_decrease

后剪枝（Post-pruning）

生成完整树后进行剪枝：

计算节点经验熵：
$C_{\alpha}(T) = C(T) + \alpha |T|$
- $C (T)$ ：模型对训练数据的预测误差
- $∣ T ∣$ ：叶节点个数
自底向上递归剪枝，选择使 $C_{\alpha}$ 最小的子树

三、模型评估

3.1 评估指标

任务类型	常用指标	计算公式
分类	准确率、F1 Score、AUC	$\frac{TP+TN}{N}$
回归	MSE、MAE、R²	$\frac{1}{n}\sum(y_i-\hat{y}_i)^2$

3.2 学习曲线分析

过拟合识别：

训练集准确率：0.98
测试集准确率：0.72
→ 模型过拟合

解决方案：

增加剪枝强度
减少树的最大深度
使用集成方法（如随机森林）

四、应用案例

4.1 鸢尾花分类

数据集：150个样本，4个特征（花萼长宽、花瓣长宽）
实现代码：

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_irisiris = load_iris()
clf = DecisionTreeClassifier(max_depth=3)
clf.fit(iris.data, iris.target)# 可视化决策树
from sklearn.tree import plot_tree
plot_tree(clf, feature_names=iris.feature_names)