@evilking
2018-05-02T22:53:59.000000Z
字数 4501
阅读 5372
回归分析篇
无论是在介绍一元还是多元线性回归模型时,我们总假定其随机误差项是不相关的,即
如果一个回归模型不满足上式,即,则我们称随机误差项之间存在着自相关现象。
这里的自相关现象不是指两个或两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。比如时间序列中, 时刻的值与 时刻的值有关
遗漏关键变量时会产生序列的自相关性
如果忽略了一个或几个重要的变量,而这些遗漏的关键变量在时间顺序上的影响是正相关的,回归模型中的误差项就会具有明显的正相关,这是因为误差包含了遗漏变量的影响
经济变量的滞后性会给序列带来自相关性
许多经济变量都会产生滞后影响,例如物价指数、基建投资、国民收入、消费、货币发行量等都有一定的滞后性。在这样的时间序列数据中,顺序观测值之间的相关现象是很自然的。经济现象中的自相关一般是正的
采用错误的回归函数形式也可能引起自相关性
假设某实际问题的正确回归函数应由指数形式
蛛网现象也可能带来序列的自相关性
蛛网现象比较复杂,我们不会去介绍,读者可以自行百度学习
因对数据加工整理而导致误差项之间产生自相关性
在回归分析建模中,我们经常要对原始数据进行一些处理,如在具有季节性时序资料的建模中,我们常常要消除季节性,对数据作修匀处理。但是如果采用了不恰当的差分变换,这样也会带来序列的自相关性
当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果任然直接用普通最小二乘法估计未知参数,将会产生严重后果
参数的估计值不再具有最小方差线性无偏性
均方误差 可能严重低估误差项的方差
容易导致对 值评价过高,常用的 检验和 检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论
当存在序列相关时,任然是 的无偏估计量,但在任一特定的样本中, 可能严重歪曲 的真实情况,即最小二乘估计量对抽样波动变得非常敏感
如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差,甚至错误的解释
图示法比较直观,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项 ,作为随机项 的真实值的估计值,再描绘出 的散点图,根据 的相关性来判断随机项 的序列相关性
残差 的散点图通常有两种绘制方式:
绘制 的散点图
用 作为散点绘图。如果大部分点落在第 象限,表明随机扰动项 存在着正的序列相关,如下图(a);如果大部分点落在第 象限,那么随机扰动项 存在着负相关,如下图(b)
按照时间顺序绘制回归残差项 的图形
如果 随着 的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,就可断言 存在相关,表明 存在着序列相关
如果 随着 的变化逐次变化并不断地改变符号,如下图(a),那么随机扰动项 存在负的序列相关,这种现象称为蛛网现象
如果 随着 的变化逐次变化并不频繁地改变符号,而是几个正的 后面跟着几个负的,则表明随机扰动项 存在正的序列相关,如下图(b)
误差序列 的自相关系数定义为
在实际应用中,由于 的真实值是未知的,需要用估计值 来代替,于是有
通常采用下面介绍的DW检验代替对 的检验:
DW检验是一种适用于小样本的检验方法。
DW检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。
随机扰动项的一阶自回归形式为
下面推导DW值的取值范围:
误差项的自相关性 | ||
---|---|---|
-1 | 4 | 完全负自相关 |
(-1,0) | (2,4) | 负自相关 |
0 | 2 | 无自相关 |
(0,1) | (0,2) | 正自相关 |
1 | 0 | 完全正自相关 |
所有由上述讨论可知 的取值范围为
根据样本容量 和解释变量的数目 (这里包括常数项)查 分布表,得临界值 和 ,然后依下图考察计算得到的DW值,以决定模型的自相关状态:
需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性:
DW 检验有两个不能确定的区域,一旦 DW 值落在这两个区域,就无法判断。这时,只有增大样本容量或选取其他方法
DW 统计量的上、下界表要求 ,这是因为样本如果再小,利用残差就很难对自相关的存在性作出比较正确的诊断
DW 检验不适用随机项具有高阶序列相关的检验
当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。
如果是回归模型选用不当,则应该用适当的回归模型;如果是缺少重要的自变量,则应增加自变量;如果以上两种方法都不能消除序列相关性,则需采用差分法、自回归法、移动平均法,或者这些方法的综合运用等方法处理。
下面介绍迭代法和差分法,至于自回归法和移动平均法等在时间序列篇中再细讲。
以一元线性回归模型为例,设一元线性回归模型的误差项存在一阶自相关
由于变量替换的自相关系数 是未知的,需要用 对 做估计,然后带入到最后的模型中作普通最小二乘回归,即可求解
在实际问题中,往往误差项并不是简单的一阶自相关,而是更负责的自相关形式,则误差项 有可能任然存在自相关,则需要进一步重复上述步骤,先对误差 做 检验,然后再用迭代法,直至最后误差项消除自相关性为止
差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关的情形
在迭代法中,当 时,得
这样不带常数项的回归方程用最小二乘法估计,得
在实际应用中, 接近 1 时我们采用差分法而不是迭代法