@evilking
2017-10-15T10:33:03.000000Z
字数 1874
阅读 3850
回归分析篇
在回归分析的应用中,数据时常包含一些异常的或极端的观测值,这些观测值与其他数据点远远分开,可能引起较大的残差,极大地影响回归拟合的效果。在一元回归的情况下,可以通过散点图或残差图很方便的看出来,但是在多元回归的情况下,要识别这些异常点就比较困难了
异常值氛围两种情况,一种是关于因变量 异常,另一种是关于自变量 异常
在残差分析中认为,超过 的残差为异常值。
由于普通残差 的方差 不等,用 作判断会带来一定的麻烦
类似于一元线性回归,在多元线性回归中,同样可以引入标准化残差 和学生化残差 的概念,以改进普通残差的性质
标准化残差:
标准化残差使残差具有可比性, 的相应观测值即判定为异常值,这简化了判定工作,但是没有解决方程不等的问题。
学生化残差进一步解决了方差不等的问题,比标准化残差又有所改进。
但是当观察数据中存在关于 的异常观察值时,普通残差、标准化残差、学生化残差都不再适用;这是由于异常值把回归线拉向自身,使异常值本身的残差减小,而其余观测值的残差增大,这时回归标准差 也会增大,因而用 "" 准则不能正确分别出异常值。解决这个问题的方法是改用删除残差。
删除残差的构造思想是: 在计算第 个观测值的残差时,用删除掉这第 个观测值的其余 个观测值拟合回归方程,计算出第 个观测值的删除拟合值 ,这个删除拟合值与第 个使无关,不受第 个值是否为异常值的影响,由此定义第 个观测值的删除残差为
删除残差 较普通残差更能如实反映第 个观测值的异常性。可以证明
进一步,我们可以给出第 个观测值的删除学生化残差,记为
的观测值即判定为异常值.
由 ,其中 为帽子矩阵中主对角线的第 个元素,它是调节 方差大小的杠杆
较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能够把回归方程拉向自身,因而把杠杆值大的样本点称为强影响点。
强影响点并不一定是 值的异常值点,因而强影响点并不总会对回归方程造成不良影响。但是强影响点对回归效果通常有较强的影响,需要引起关注。这是因为一下两点原因:
在实际问题中,因变量与自变量的线性关系只是在一定的范围内成立,强影响点远离样本中心,因变量与自变量之间可能已不再是线性函数关系,因而在选择回归函数的形式时,要侧重于强影响点
即使线性回归形式成立,但是强影响点远离样本中心,能够把回归方程拉向自身,使回归方程产生偏移
由于强影响点并不总是 的异常值点,因而不能单纯根据杠杆值 的大小判断强影响点是否异常。为此,我们引入库克距离,用来判断强影响点是否为 的异常值点
库克距离为
因为 ,则杠杆值 的平均值为
对于库克距离大小标准的判定比较复杂,一个粗略的标准是: 当 时,认为不是异常值点;当 时,认为是异常值点.