[关闭]
@BruceWang 2018-01-27T16:27:29.000000Z 字数 546 阅读 1268

CSDN价值两万的AI课程--week1 线性模型--数据预处理

CSDN价值两万的AI课程

1. 标准化StandardScaler

  1. 数据分布太散
  2. 异常值,就是有的很大很小都会影响线性模型,而且还很大。

    然后针对相应的毛病,找解决办法(右键谷歌), 一般就是对数据进行标准差标准化,经过处理的数据会符合标准正态分布
    所以我们拿到数据:先看数据分布!!

Z-zero标准化 也叫标准差标准化。

注意:如果特征非常稀疏,并且有大量的0,那零标准化是很不适合的。

2. 归一化

  1. MinMaxScaler 归一化就是将所有特征值都等比地缩小到0-1之间的区间内,将一个特征中最大的值转换为1,最小的那个值转换为0,其余的值按照一定比例分布在(0,1)之间。

  2. MaxAbsScaler 将一个特征中的值规模化到(-1, 1)的区间内,将每一个数都除以特征值中的最大绝对数。
    这样的做法并不会改变原来为0的值,所以也不会改变稀疏性

3. 正则化 Normalizer

就是为了防止过拟合,主要有三种: L0,L1,L2这些形式的范数

关于为啥会出现负值?

首先去看看是不是对x和Y做了同一种归一化,要知道归一化的作用其实就是
1. 把不同量纲的东西放在同一量纲下比较
2. 保持收敛加快,其实就是去量纲化之后。
3. 模型在归一化之后会影响效果,有的模型则不会,

热编码

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注