[关闭]
@songying 2019-03-24T14:17:35.000000Z 字数 2066 阅读 1293

机器学习: 决策树

machine-learning


简介

决策树是一个分而治之的递归过程。

决策树三步走

算法描述

决策树优缺点

1. 特征的选择

ID3: 信息增益,C4.5: 信息增益比,CART: 基尼系数

1. 信息增益

思想: 计算所有特征划分数据集D,得到多个特征划分数据集D的信息增益,从这些信息增益中选择最大的,因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。

熵是用来度量随机变量的不确定性。

定义: 假设随机变量X的可能取值有,对于每一个可能的取值,其概率为。随机变量的熵为:


熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。

信息增益

定义: 度量以某特征划分数据集前后的熵的差值

假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D,计算划分后的数据子集的熵为H(D|A)。


信息增益对数目较多的属性有所偏好,因此有人提出采用信息增益比来划分特征。

2. 信息增益比

信息增益比本质:在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。


信息增益比对可取值数目较少的属性有所偏好。C4.5 先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择信息增益比最高的。

3. 基尼系数

2. 决策树的生成

1. ID3 算法

ID3 算法采用信息增益来选择特征。 方法是: 从根节点开始, 对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点特征,然后划分子集。 再对子集递归调用以上方法,构建决策树,直到所有特征的信息增益均很小或没有特征可以选择为止。

2. C4.5 算法

采用信息增益比来选择 特征。

3. 剪枝处理

剪枝的作用

剪枝处理是决策树学习算法用来解决过拟合的一种办法。在决策树算法中,为了尽可能正确分类训练样本, 节点划分过程不断重复, 有时候会造成决策树分支过多,以至于将训练样本集自身特点当作泛化特点, 而导致过拟合。 因此可以采用剪枝处理来去掉一些分支来降低过拟合的风险。

1. 预剪枝

在决策树生成过程中,在每个节点划分前先估计其划分后的泛化性能, 如果不能提升,则停止划分,将当前节点标记为叶结点。

评估方法采用常见的性能评估法即可。

2. 后剪枝

生成决策树以后,再自下而上对非叶结点进行考察, 若将此节点标记为叶结点可以带来泛化性能提升,则修改之。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注