[关闭]
@songying 2019-04-02T21:22:53.000000Z 字数 505 阅读 971

特征工程

machine-learning


http://www.cnblogs.com/jasonfreak/p/5448385.html

1. 特征工程:类别型特征

1. 序号编码

序号编码常用于处理类别间具有大小关系的数据。 序号编码会按照大小关系对类别型特征赋予一个数值ID。

举例: 高:3, 中:2, 低:1

2. 独热编码

独热编码常用于处理类别间不具有大小关系的特征。

  • A型血:[1, 0, 0, 0]
  • B型血:[0, 1, 0, 0]
  • C型血:[0, 0, 1, 0]
  • D型血:[0, 0, 0, 1]

在采用独热编码时需要注意以下问题:

  • 适用稀疏向量来节省空间。
  • 配合特征选择来降低维度。

高维度的特征会带来以下问题:

  • 在k邻近算法中,高维空间下两点的举例很难得到有效衡量
  • 逻辑回归中,参数数量会随着维度增高为增加,容易过拟合
  • 通常只有部分维度是对分类,预测有帮助,因此可以考虑配合特征选择来降低维度。

3. 二进制编码

两步走:

  • 先用序号编码为每个类别赋予一个类别ID
  • 将类别ID对应的二进制编码作为结果

举例:

  • A型血: 1: [0 0 1]
  • B型血: 2: [0 1 0]
  • C型血: 3: [0 1 1]
  • D型血: 4: [1 0 0]

2. 特征工程: 高维组合特征

1. 如何有效找到组合特征

通过构造决策树来选择特征。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注