@evilking 2017-10-15T02:30:04.000000Z 字数 5375 阅读 3602

回归分析篇

自变量选取与逐步回归

回归自变量的选择无疑是建立回归模型的一个极为重要的问题。在建立一个实际问题的回归模型时，我们首先碰到的问题便是如何确定回归自变量，一般情况下，我们大都是根据所研究问题的目的，结合经济理论列出对因变量可能有影响的一些因素作为自变量。

如果我们遗漏了某些重要的变量，回归方程的效果肯定不好；如果我们担心遗漏了重要的变量，而考虑过多的自变量，在这些变量中，某些自变量对问题的研究可能并不重要，有些自变量数据的质量可能很差，有些变量可能和其他变量有很大程度的重叠。如果回归模型把这样一些变量都选进来，不仅计算量增大许多，而且得到的回归方程稳定性也很差，直接影响到回归方程的应用

本篇会为大家介绍子集回归模型，变量选取的几个准则，以及逐步回归方法及R语言实例演示

全模型和选模型

设我们研究的某一实际问题，涉及到对因变量有影响的因素共有 $m$ 个，由因变量 $y$ 和 $m$ 个自变量 $x_1,x_2,\cdots,x_m$ 构成的回归模型为

$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_m x_m + \epsilon$ 因为该模型是因变量

$y$ 与所有自变量

$x_1,x_2,\cdots,x_m$ 的回归模型，故称全回归模型.

如果我们从所有可供选择的 $m$ 个变量中挑选出 $p$ 个，记为 $x_1,x_2,\cdots,x_p$ ，由所选的 $p$ 个自变量组成的回归模型为

$y = \beta_{0p} + \beta_{1p} x_1 + \beta_{2p} x_2 + \cdots + \beta_{pp} x_p + \epsilon_p$ 相对于全模型而言，我们称此模型为选模型。选模型中的

$p$ 个自变量并不一定是全体

$m$ 个自变量中的前

$p$ 个，

$x_1,x_2,\cdots,x_p$ 是在

$m$ 个自变量

$x_1,x_2,\cdots,x_m$ 中按某种规则挑选出的

$p$ 个.

自变量的选择问题我们可以看成是对一个实际问题是用全模型还是用选模型去描述。

如果应该用全模型去描述的问题，而我们误用了选模型，这就说明我们在建模时丢掉了一些有用的变量；如果应该用选模型，而我们误用了全模型，这就说明我们把一些不必要的自变量引进了模型

这种自变量不恰当的选取，就会对回归结果产生一定程度上不好的影响

一个好的回归模型，并不是考虑的自变量越多越好。在建立回归模型时，选择自变量的基本指导思想是少而精。

哪怕我们丢掉了一些对因变量 $y$ 还有些影响的自变量，由选模型估计的保留变量的回归系数的方差，要比由全模型所估计的相应变量的回归系数的方差小。

而且对于所预测的因变量的方差来说也是如此，丢掉了一些对因变量 $y$ 有影响的自变量后，所付出的代价是估计量产生了有偏性。然而，尽管估计量是有偏的，但预测偏差的方差会下降。

另外，如果保留下来的自变量有些对因变量无关紧要，那么，方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。

所以自变量的选择有重要的实际意义，在建立实际问题的回归模型时，我们应尽可能剔除那些可有可无的自变量

自变量选择的几个准则

自由度调整复决定系数达到最大

我们把选模型的残差平方和记为 $SSE_p$ ，当再增加一个新的自变量 $x_{p+1}$ 时，相应的残差平方和记为 $SSE_{p+1}$ 。根据最小二乘估计的原理，增加自变量时残差平方和将减少，减少自变量时残差平方和将增加。因此有

$SSE_{p+1} \leq SSE_p$ 又记它们的复决定系数分别为:

$R_{p+1}^2 = 1 - SSE_{p+1}/SST,R_p^2 = 1 - SSE_p/SST$ 。由于

$SST$ 是因变量的离差平方和，与自变量无关，因而

$R_{p+1}^2 \geq R_p^2$ 即当自变量子集在扩大时，残差平方和随之减小，而复决定系数

$R^2$ 随之增大；然而复决定系数的增大代价是残差自由度的减少，因为残差自由度等于样本个数与自变量个数之差。

自由度小意味着估计和预测的可靠性低，这表明一个回归方程涉及的自变量很多时，回归模型的拟合在外表上是良好的，而区间预报和区间估计的幅度则变大，以至失去实际意义.

我们设法把 $R^2$ 给予适当的修正，使得只有加入"有意义"的变量时，经过修正的样本决定系数才会增加，这就是所谓的自由度调整复决定系数，这样来克服样本决定系数的这样一个缺点.

设 $R_a^2$ 为调整后的复决定系数， $n$ 为样本容量， $p$ 为自变量的个数，则

$R_a^2 = 1 - \frac{n-1}{n-p-1}(1-R^2)$ 显然有

$R_a^2 \leq R^2$ ，

$R_a^2$ 随着自变量的增加并不一定增大.

经过改进后我们可以看到，尽管 $1 - R^2$ 随着变量的增加而减少，但由于其前面的系数 $(n-1)/(n-p-1)$ 起折扣作用，才使 $R_a^2$ 随着自变量的增加并不一定增大。当所增加的自变量对回归的贡献很小时， $R_a^2$ 反而可能减少.

在一个实际问题的回归建模中，自由度调整复决定系数 $R_a^2$ 越大，所对应的回归方程越好

从另一个角度考虑回归的拟合效果，回归误差项误差 $\sigma^2$ 的无偏估计为
$\hat{\sigma}^2 = \frac{1}{n-p-1}SSE$ 此无偏估计式中也加入了惩罚因子 $n-p-1$ ， $\hat{\sigma}^2$ 实际上就是用自由度 $n-p-1$ 作平均残差平方和。当自变量个数从0开始增加时， $SSE$ 逐渐减小，作为除数的惩罚因子 $n-p-1$ 也随之减小.

也容易证明:
$R_a^2 = 1 - \frac{n-1}{SST} \hat{\sigma}^2$ 由于 $SST$ 是与回归无关的固定值，因而 $R_a^2$ 与 $\hat{\sigma}^2$ 是等价的

赤池信息量 $AIC$ 达到最小

$AIC$ 准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则，人们称它为赤池信息量准则(Akaike Information Criterion,简记为 AIC).

AIC准则即可用来作回归方程自变量的选择，又可用于时间序列分析中自回归模型的定价上.

对一般情况，设模型的似然函数为 $L(\boldsymbol{C},\boldsymbol{x}),\boldsymbol{\theta}$ 的维数为 $p$ ， $x$ 为随机样本（在回归分析中随机样本为 $y = (y_1,y_2,\cdots,y_n)'$ ），则 $AIC$ 定义为

$AIC = -2 ln{L(\hat{\boldsymbol{\theta}}_{L},\boldsymbol{x})} + 2 p$ 其中，

$\hat{\boldsymbol{\theta}}_L$ 为

$\boldsymbol{\theta}$ 的极大似然估计；

$p$ 为未知参数的个数.

式中右边第一项是似然函数的对数乘以-2，第二项惩罚因子是未知参数个数的2倍.

我们知道，似然函数越大的估计量越好，现在 $AIC$ 是似然函数的对数乘以-2再加上惩罚因子 $2p$ ，因而选择使 $AIC$ 达到最小的模型是“最优”模型.

下面介绍如何将 $AIC$ 用于回归模型的选择上.假定回归模型的随机误差项 $\epsilon$ 遵从正态分布，即

$\epsilon \approx N(0,\sigma^2)$ 在这个正态假定下，根据回归参数的极大似然估计有:

$ln{L_{max}} = -\frac{n}{2} ln(2\pi) - \frac{n}{2} ln(\hat{\sigma}_L^2) - \frac{1}{2 \hat{\sigma}_L^2} SSE$ 将

$\hat{\sigma}_L^2 = \frac{1}{n} SSE$ 代入得:

$ln{L_{max}} = -\frac{n}{2} ln(2\pi) - \frac{n}{2} ln(\frac{SSE}{n}) - \frac{n}{2}$ 将上式代入赤池信息准则公式中，这里似然函数中的未知参数个数为

$p+2$ ，略去与

$p$ 无关的常数，得回归模型的

$AIC$ 公式为

$AIC = n ln(SSE) + 2p$ 在回归分析的建模过程中，对每一个回归子集计算

$AIC$ ，其中

$AIC$ 最小者所对应的模型是“最优”回归模型.

$C_p$ 统计量达到最小

1964年马洛斯(Mallows)从预测的角度提出一个可以用来选择自变量的统计量，这就是我们常说的 $C_p$ 统计量.

考虑在 $n$ 个样本点上，用选模型作回归预测时，预测值与期望值的相对偏差平方和为

$J_p = \frac{1}{\sigma^2} \sum_{i=1}^n{(\hat{y}_{ip} - E(y_i))^2} \\= \frac{1}{\sigma^2} \sum_{i=1}^n{(\hat{\beta}_{0p} + \hat{\beta}_{1p} x_{i1} + \cdots + \hat{\beta}_{pp} x_{ip} \\- (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_m x_{im}) )^2}$ 可以证明，

$J_p$ 的期望值是

$E(J_p) = \frac{E(SSE_p)}{\sigma^2} - n + 2(p+1)$ 由此可以构造出

$C_p$ 统计量为

$C_p = \frac{SSE_p}{\hat{\sigma}^2} - n + 2p \\= (n-m+1)\frac{SSE_p}{SSE_m} - n + 2p$ 其中，

$\hat{\sigma}^2 = \frac{1}{n-m-1}SSE_m$ 为全模型中

$\sigma^2$ 的无偏估计.

这样我们得到一个选择变量的 $C_p$ 准则：选择使 $C_p$ 最小的自变量子集，这个自变量子集对应的回归方程就是最优回归方程.

逐步回归

在前面的内容我们知道了如何去选取对因变量 $y$ 有显著影响的自变量 $x$ ，对于变元比较少的情况下可以同人工来挑选，但是当自变量的个数较多时，要求出所有可能的回归方程式非常困难的.

于是人们想出通过程序自动根据给的变量选取准则来自动选取，目前常用的方法有“前进法”、“后退法”、“逐步回归法”，而逐步回归法最受推崇.

前进法

前进法的思想是变量由少到多，每次增加一个，直至没有可引入的变量为止.

具体做法是首先将全部 $m$ 个自变量，分别对因变量 $y$ 建立 $m$ 个一元线性回归方程，并分别计算这 $m$ 个一元回归方程的 $m$ 个回归系数的 $F$ 检验值，记为 ${F_1^1,F_2^1,\cdots,F_m^1}$ ，选其最大者记为

$F_j^1 = max\{F_1^1,F_2^1,\cdots,F_m^1\}$ 给定显著性水平

$\alpha$ ，若

$F_j^1 \geq F_{\alpha}(1,n-2)$ ，则首先将

$x_j$ 引入回归方程，为了方便，设

$x_j$ 就是

$x_1$ .

接下来因变量 $y$ 分别与 $(x_1,x_2),(x_1,x_3),\cdots,(x_1,x_m)$ 建立 $m-1$ 个二元线性回归方程，对这 $m-1$ 个回归方程中 $x_2,x_3,\cdots,x_m$ 的回归系数进行 $F$ 检验，计算 $F$ 值，记为 ${F_2^2,F_3^2,\cdots,F_m^2}$ ，选其最大的记为

$F_j^2 = max\{F_2^2,F_3^2,\cdots,F_m^2\}$ 若

$F_j^2 \geq F_{\alpha}(1,n-3)$ ，则接着讲

$x_j$ 引入回归方程.

依上述方法接着做下去，直至所有未被引入方程的自变量的 $F$ 值均小于 $F_{\alpha}(1,n-p-1)$ 时为止，这时，得到的回归方程就是最终确定的方程.

每步检验中的临界值 $F_{\alpha}(1,n-p-1)$ 与自变量数目 $p$ 有关，在用软件计算时，实际使用的是显著性 $P$ 值（或记为 sig）做检验.

后退法

后退法与前进法相反，首先用全部 $m$ 个变量建立一个回归方程，然后在这 $m$ 个变量中选择一个最不重要的变量，将它从方程中剔除.

设对 $m$ 个回归系数进行 $F$ 检验，记求得的 $F$ 值为 $\{F_1^m,F_2^m,\cdots,F_m^m\}$ ，选其最小值记为

$F_j^m = min\{F_1^m,F_2^m,\cdots,F_m^m\}$ 给定显著性水平

$\alpha$ ，若

$F_j^m \leq F_{\alpha}(1,n-m-1)$ ，则首先将

$x_j$ 从回归方程中剔除，为方便，设

$x_j$ 就是

$x_m$ .

接着对剩下的 $m-1$ 个自变量重新建立回归方程，进行回归系数的显著性检验，想上面那样计算出 $F_j^{m-1}$ ，如果又有 $F_j^m \leq F_{\alpha}(1, n-(m-1)-1)$ ，则剔除 $x_j$ ，重新建立 $y$ 关于 $m-2$ 个自变量的回归方程。

依此下去，直至回归方程中所剩下的 $p$ 个自变量的 $F$ 检验值均大于临界值 $F_{\alpha}(1,n-p-1)$ ，没有可剔除的自变量为止，这时，得到回归方程就是最终确定的方程.

逐步回归法

逐步回归的基本思想是有进有出.

具体做法是:

将变量一个一个引入，当每引入一个自变量后，对已选入的变量要进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时，要将其剔除。
引入一个变量或从回归方程中剔除一个变量，为逐步回归的一步，每一步都要进行 $F$ 检验，以确保每次引入新的变量之前回归方程中只包含显著的变量。
这个过程反复进行，直到即无显著的自变量选入回归方程，也无不显著自变量从回归方程中剔除为止。

这样就避免了前进法和后退法各自的缺陷，保证了最后所得的回归子集是最优回归子集.

在逐步回归法中需要注意的一个问题是引入自变量和剔除自变量的显著性水平 $\alpha$ 值是不相同的，要求引入自变量的显著性水平 $\alpha_进$ 小于剔除自变量的显著性水平 $\alpha_出$ ，否则可能产生“死循环”

也就是当 $\alpha_进 \geq \alpha_出$ 时，如果某个自变量的显著性 $P值$ 在 $\alpha_进$ 和 $\alpha_出$ 之间，那么这个自变量将被引入、剔除、再引入、再剔除......循环往复，以至无穷.

自变量选取与逐步回归

全模型和选模型

自变量选择的几个准则

自由度调整复决定系数达到最大

赤池信息量AIC达到最小

C_p统计量达到最小

逐步回归

前进法

后退法

逐步回归法

R语言实例程序演示

内容目录

赤池信息量 $AIC$ 达到最小

$C_p$ 统计量达到最小