@songying
2019-04-02T21:22:53.000000Z
字数 505
阅读 971
machine-learning
http://www.cnblogs.com/jasonfreak/p/5448385.html
序号编码常用于处理类别间具有大小关系的数据。 序号编码会按照大小关系对类别型特征赋予一个数值ID。
举例: 高:3, 中:2, 低:1
独热编码常用于处理类别间不具有大小关系的特征。
- A型血:[1, 0, 0, 0]
- B型血:[0, 1, 0, 0]
- C型血:[0, 0, 1, 0]
- D型血:[0, 0, 0, 1]
在采用独热编码时需要注意以下问题:
- 适用稀疏向量来节省空间。
- 配合特征选择来降低维度。
高维度的特征会带来以下问题:
- 在k邻近算法中,高维空间下两点的举例很难得到有效衡量
- 逻辑回归中,参数数量会随着维度增高为增加,容易过拟合
- 通常只有部分维度是对分类,预测有帮助,因此可以考虑配合特征选择来降低维度。
两步走:
- 先用序号编码为每个类别赋予一个类别ID
- 将类别ID对应的二进制编码作为结果
举例:
- A型血: 1: [0 0 1]
- B型血: 2: [0 1 0]
- C型血: 3: [0 1 1]
- D型血: 4: [1 0 0]
通过构造决策树来选择特征。