@evilking
2017-10-15T10:29:43.000000Z
字数 2865
阅读 2083
回归分析篇
多元线性回归模型有一个基本假设,就是要求设计矩阵 的秩 ,即要求 中的列向量之间线性无关。
如果存在不全为 的 个数 ,使得
在实际问题中完全的多重共线性并不多见,常见的是上式近似成立的情况,即存在不全为 的 个数 ,使得,使得
当自变量 存在上式的关系时,称自变量 之间存在着多重共线性(Multi-Collinearity),也称为复共线性。
上述定义也可以作为是否存在多重共线性问题的检验方法
解释变量之间完全不相关的情形是非常少见的,尤其是研究某个经济问题时,涉及的自变量较多,在建立回归模型时,往往由于研究者认识水平的局限性,我们很难找到一组自变量,它们之间互不相关,而且它们又都对因变量有显著影响.
客观地说,某一经济现象,涉及到多个影响因素时,这多个影响因素之间大都有一定的相关性。当它们之间的相关性较弱时,我们一般认为符合多元线性回归模型设计矩阵的要求;当这一组变量间有较弱的相关性时,我们就认为它违背了多元线性回归模型的基本假设.
对自变量作中心标准化,则 为自变量的相关阵。记
因为
记 为自变量 对其余 个自变量的复决定系数,可以证明
由于 度量了自变量 与其余 个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重,也就越接近于1,也就越大;反之,与其余 个自变量线性相关程度越弱,自变量间的多重共线性也就越弱,就越接近于零, 也就越接近于 1.
由此可见 的大小反映了自变量之间是否存在多重共线性,因此可由它来度量多重共线性的严重程度。
经验表明,当 时,就说明自变量 与其余自变量之间存在严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值.
有说也可以用
来度量多重共线性,当该值远远大于 时就表示存在严重的多重共线性问题.
当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化,我们就认为回归方程存在严重的多重共线性.
从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验时,可初步判断存在严重的多重共线性.
有些自变量的回归系数所带正负号与定性分析结果违背时,我们认为存在多重共线性问题.
自变量的相关矩阵中,自变量间的相关系数较大时,我们认为可能会出现多重共线性的问题.
一些重要的自变量的回归系数的标准误差较大时,我们认为可能存在多重共线性.
通常在经济问题的建模中,由于我们认识水平的局限,容易考虑过多的自变量。当涉及自变量较多时,大多数回归方程都受到多重共线性的影响。
这时,最常用的方法是先用上篇自变量的选取所述的方法,舍去一些自变量。当回归方程中的全部自变量都通过显著性检验后,回归方程中任然存在严重的多重共线性,有几个变量的方差扩大因子大于,我们可以把方程扩大因子最大者所对应的自变量首先剔除,再重新建立回归方程,如果任然存在严重的多重共线性,则再继续剔除方差扩大因子最大者所对应的自变量,直到回归方程中不再存在严重的多重共线性为止。
在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子的多重共线性检验与自变量的经济含义结合起来考虑,以改进或剔除变量.
建立一个实际问题的回归模型,如果所收集的样本数据太少,也容易产生多重共线性。
譬如,我们的问题涉及到两个自变量,假设 都已经中心化了,因为
可以看到,在 固定不变时,当样本容量 增大时,和 都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响.
因此,增大样本容量也是消除多重共线性的一个途径。当我们所选的变量个数接近样本容量 时,自变量间就容易产生共线性,所以在实际的问题研究中,要尽可能使样本容量 远大于自变量个数 .
在实际的问题中,由于有些时候获取样本的代价非常昂贵,增加样本数量变得很困难,所以这种方法并不总是有效;同时在有些情况下,增加了样本数据,还可能引起其他一些新的问题,使模型拟合变差
消除多重共线性对回归模型的影响,统计学家们研究已久,除上述常用方法外,统计学家们还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如岭回归法、主成分法、偏最小二乘法等,现在已有很多应用效果不错的例子
这里我们只介绍上述一些简单常用的方法,像岭回归法等复杂的方法读者可以网上自行查询学习.