@rianusr
2019-08-13T10:15:19.000000Z
字数 534
阅读 5905
第六章:机器学习01:特征工程--02特征转换
06-机器学习
1 连续变量无量纲化
1.1 无量纲化的原因
1.2 常用的无量纲化的方法
1.2.1 标准化
1.2.2 区间缩放法
2 连续变量数据变换--改变元数据的分布
2.1 为什么要进行数据变换
2.2 常用的数据变换方法
2.2.1 log变换
2.2.2 box-cox变换
3 连续变量的离散化
3.1 为什么要离散化?
3.2 无监督的离散化方法
3.3 有监督的离散化方法
3.3.1 有监督的离散化:决策树
3.3.2 一种特殊的离散化方法:二值化
3.3.3 一种特殊的离散化:Rounding(取整)
4 类别型变量转换
4.1 为什么对类别变量进行转换?
4.2 常见的转换方法
4.2.1 one-hot编码(独热编码)
4.2.2 Count Encoding
4.2.3 Target encoding
5 日期型变量转换
5.1 日期型变量
5.2 日期型变量转换方法
5.2.1 提取日期/时间中的特征变量
5.2.2 相对特征的提取
6 缺失值的处理方法
6.1 为什么会产生缺失值
6.2 缺失值处理方法汇总
6.3 缺失值处理案例1:均值替换
6.4 缺失值处理案例2:NaN encoding
7 特征转换之特征组合
7.1 为什么要进行特征组合
7.2 特征组合的方法
7.2 类别型变量特征组合示例