[关闭]
@helen- 2019-04-23T07:12:03.000000Z 字数 293 阅读 590

机器学习1 决策树

研究生学习 机器学习 监督学习


决策树--> 监督学习

决策树/判定树 分类算法
类似于流程图的树的结构
结点表示在属性上的判断

熵(entropy)

信息熵
信息量的度量等于不确定性的多少
变量的不确定性越大 熵也越大
单位 bits

ID3算法

选择属性判断结点
信息熵= Σ (-Alog2(A))
信息获取量=每个属性的加权平均信息熵 (A 是属性内部概率 权 是全局概率) 之和
用信息获取量与信息熵做差
选择差距最小的作为根节点

所有属性都是分类.是离散值. 连续属性必须离散化
所有样本属于同一个类 或属性全部用完

树减枝 (避免overfitting)

先减 / 后减


python scilit-learn

分类 回顾 聚类 模型选择 降维

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注