@Rstat 2016-10-27T01:09:13.000000Z 字数 31815 阅读 19549

多元统计分析及R语言建模

第4章：多元相关与回归分析及R使用

【基本要求】由于回归分析在统计学实际发展中的重要地位，以及学生在前期统计学课程中对（一元）相关与回归分析和相关统计内容的初步了解，在学生已具有的（一元）相关与回归分析的基础知识上，掌握和应用多元线性相关与回归分析。

【基本内容】变量间的关系分析，简单相关与回归分析。多元相关回归分析的目的和基本思想，多元回归分析的数学模型、基本假定和最小二乘求法，回归系数的假设检验，变量选择及逐步回归分析方法以及非线性回归模型的计算。

4.1 变量之间的关系分析

　　变量间的关系:一类是变量间存在着完全确定性的关系，这类变量间的关系称为函数关系；另一类是变量间关系不存在完全的确定性关系，不能用精确的数学公式来表示，这些变量间都存在着十分密切的关系，但不能由一个或几个变量的值精确地求出另一个变量的值。这些变量间的关系称为相关关系，把存在相关关系的变量称为相关变量。
　　相关变量间的关系:一种是平行关系，即两个或两个以上变量之间相互影响。另一种是依存关系，即一个变量的变化受另一个或几个变量的影响；相关分析是研究呈平行关系的相关变量之间的关系，而回归分析是研究呈依存关系的相关变量间的关系。表示原因的变量称为自变量 $(Independent Variable)$ ，表示结果的变量称为因变量 $(Dependent Variable)$ 。
　　变量间的关系及分析方法：

变 量 间 的 关 系 函 数 关 系 有 精 确 的 数 学 表 达 式 （ 数 学 模 型 ） （ 确 定 性 关 系 ） 相 关 关 系 平 行 关 系 一 元 相 关 分 析 多 元 相 关 分 析 相 关 分 析 依 存 关 系 一 元 回 归 分 析 多 元 回 归 分 析 回 归 分 析 非 确 定 关 系

$变量间的关系\begin{cases} 函数关系——有精确的数学表达式（数学模型）\\（确定性关系）\\相关关系{\begin{cases}平行关系{\begin{cases}一元相关分析\\多元相关分析\end{cases}}\\(相关分析)\\依存关系{\begin{cases}一元回归分析\\多元回归分析\end{cases}}\\(回归分析)\end{cases}}\\(非确定关系) \end{cases}$

4.1.1 简单相关分析的R计算

　　相关分析就是要通过对大量数字资料的观察，消除偶然因素的影响，探求现象之间相关关系的密切程度和表现形式。研究现象之间相关关系的理论方法就称为相关分析法。
　　在经济系统中，各个经济变量常常存在密切的关系。例如，经济增长与财政收入，人均收入与消费支出等。在这些关系中，有一些是严格的函数关系，这类关系可以用数学表达式表示出来。例如，在价格一定的条件下，商品销售额与销售量的依存关系；还有一些是非确定的关系，一个变量产生变动会影响其他变量，使其产生变化。其变化具有随机的特性，但是仍然遵循一定的规律。对于函数关系可以很容易地解决，而对那些非确定的相关关系，才是我们所关心的问题。因为在经济系统中，绝大多数经济变量之间的关系是非严格的、不确定的。
　　相关分析以现象之间是否相关、相关的方向和密切程度等为主要研究内容，它不区别自变量与因变量，对各变量的构成形式也不关心。其主要分析方法有绘制相关图、计算相关系数和检验相关系数。

一、两变量线性相关分析

1. 两变量线性相关系数的计算

　　在所有相关分析中，最简单的是两个变量之间的线性相关，它只涉及两个变量。而且一变量数值发生变动，另一变量的数值随之发生大致均等的变动，从平面图上观察其各点的分布近似地表现为一直线，这种相关关系就为直线相关(也叫线性关系)。
　　线性相关分析是用相关系数来表示两个变量间相互的线性关系，并判断其密切程度的统计方法。总体相关系数通常用 $\rho$ 表示。其计算公式为：

$\rho=\frac{Cov(x,y)}{\sqrt{var(x)var(y)}}=\frac{\sigma_{xy}}{\sqrt{\sigma_{x}^2\sigma_{y}^2}}$
式中，

$\sigma_{x}^2$ 为变量

$x$ 的总体方差；

$\sigma_{y}^2$ 为变量

$y$ 的总体方差, 为变量与变量的总体协方差。相关系数

$rho$ 没有单位，在

～

$-1～+1$ 范围内波动，其绝对值愈接近1，两个变量间的直线相关愈密切，愈接近0，相关愈不密切。
在实际中，我们通常要计算样本的线性相关系数

（ 相 关 系 数 ）

$（Person相关系数）$ ，计算公式

$r=\frac{s_{xy}}{\sqrt{s_{x}^2.s_{y}^2}} =\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^2\sum(y-\bar{y})^2}}$
式中

$s_{x}^2$ 为变量

$x$ 的样本方差；

$s_{y}^2$ 为变量y的样本方差,s_{xy}为变量

$x$ 与变量

$y$ 的样本协方差。l_{xx}为的

$x$ 离均差平方和，

$l_{yy}$ 为

$y$ 的离均差平方和，

$l_{xy}$ 为

$x$ 与

$y$ 的离均差乘积之和，简称为离均差积和，其值可正可负。实际计算时可按下式简化：

$\begin{cases} l_{xx}=\sum{(x-\bar{x})^2}=\sum{x}^2-\frac{\sum{x}^2}{n}\\l_{yy}=\sum{(y-\bar{y})^2}=\sum{y}^2-\frac{\sum{y}^2}{n}\\l_{xy}=\sum{(x-\bar{x})(y-\bar{y})}=\sum{xy}-\frac{(\sum{x})(\sum{y})}{n}\end{cases}$
　　【例4.1】(续例2.2)身高与体重的相关关系分析。下面以例2.2的身高与体重数据分析之。首先通过散点图看身高与体重的关系，见下图。
　　为了使大家进一步熟悉R语言编程，我们先建立一个离均差积和函数

$l_{xy}$ ，
　　

$l_{xx}=556.9,l_{yy}=813,l_{xy}=645.5$
　　

$r=\frac{l_{xy}}{\sqrt{l_{xx}l_{yy}}}=\frac{645.5}{\sqrt{559.6*813}}=0.9593$

x1=c(171,175,159,155,152,158,154,164,168,166,159,164) #身高
x2=c(57,64,41,38,35,44,41,51,57,49,47,46) #体重
plot(x1,x2) #做散点图

lxy<-function(x,y){n=length(x);sum(x*y)-sum(x)*sum(y)/n} #建立离均差乘积和函数
lxy(x1,x1) #x1的离均差平方和

556.9

lxy(x2,x2) #x1的离均差平方和

lxy(x1,x2) #x1的离均差乘积和

645.5

(r=lxy(x1,x2)/sqrt(lxy(x1,x1)*lxy(x2,x2))) #显示用离均差乘积和计算的相关系数

0.9593

　　这里为正值,说明该组人群的身高与体重之间呈现正的线性相关关系。至于相关系数是否显著，尚需进行假设检验。下面是R语言中自带的求相关系数的函数，

相关系数计算函数cor()的用法
cor(x, y = NULL, method = c("pearson", "kendall", "spearman"))
x 数值向量、矩阵或数据框，y 空或数值向量、矩阵或数据框
method 计算方法，包括"pearson", "kendall"或"spearman"三种，默认pearson

cor(x1,x2) #计算相关系数

0.9593

2.相关系数的假设检验

　　 $r$ 与其它统计指标一样，也有抽样误差。从同一总体内抽取若干大小相同的样本，各样本的相关系数总有波动。要判断不等于0的值 $r$ 是来自总体相关系数 $\rho=0$ 的总体还是来自 $\rho\neq0$ 的总体，必须进行显著性检验。
　　由于来自的 $\rho=0$ 总体的所有样本相关系数呈对称分布，故 $r$ 的显著性可用 $t$ 检验来进行。对例4.1资料，对 $r$ 进行检验的步骤为：
　　(1) 建立检验假设： $H_0:\rho=0,H_1:\rho\neq0,\alpha=0.05$
　　(2) 计算相关系数的t值:

$t_r=\frac{r-0}{\sqrt{\frac{1-r^2}{n-2}}}=\frac{0.9593\sqrt{12-2}}{\sqrt{1-0.9593^2}}=10.74$

n=length(x1) #向量的长度
tr=r/sqrt((1-r^2)/(n-2)) #相关系数假设检验t统计量
tr

10.74

　　(3) 计算值和值，作结论。

相关系数检验函数cor.test()的用法
cor.test(x, y,alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"), ...)
x, y：数据向量（长度相同）
alternative：备择假设，"two.sided"（双侧）,"greater"（右侧）或"less"（左侧）
method：计算方法，包括"pearson", "kendall"或"spearman"三种

cor.test(x1,x2) #相关系数假设检验

Pearsons product-moment correlation
data:  x and y 
t = 10.74, df = 10, p-value = 8.21e-07
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
0.8575 0.9888 
sample estimates:
cor 
0.9593

　　由于 $p=8.21e-07<0.05$ ，于是 $\alpha=0.05$ 在水准上拒绝 $H_0$ ，接受 $H_1$ 的，可认为该人群身高与体重呈现正的线性关系。
注意：相关系数的显著性与自由度有关，如 $n=3,n-2=1$ 值时，虽然 $r=-0.9070$ ，却为不显著；若 $n=400$ 时，即使 $r=-0.1000$ ，亦为显著。因此不能只看 $r$ 的值就下结论，还需看其样本量大小。

4.1.2 简单线性回归分析回顾

一、一元线性回归模型的描述：

　　回归分析研究两变量之间的依存关系，变量区分出自变量和因变量，并研究确定自变量和因变量之间的具体关系的方程形式。分析中所形成的这种关系式称为回归模型，其中以一条直线方程表明两变量依存关系的模型叫单变量（一元）线性回归模型。其主要步骤包括：建立回归模型、求解回归模型中的参数、对回归模型进行检验等。

二、一元线性回归模型的参数估计

　　在因变量和自变量所作的散点图中如果趋势大致呈直线型，则可拟合一条直线方程。
　　总体直线方程模型： $y=\alpha+\beta x+\epsilon$
　　直线方程的模型为： $\hat{y}=a+bx$
　　式中， $\hat{y}$ 表示因变量 $y$ 的估计值， $x$ 为自变量的实际值， $a,b$ 为待估参数，其几何意义是： $a$ 是直线方程的截距， $b$ 是斜率。其经济意义是： $a$ 是当 $x$ 为零时 $y$ 的估计值， $b$ 是当 $x$ 每增加一个单位时， $y$ 增加的数量， $b$ 也叫回归系数。
　　配合回归直线的目的是要求找到一条理想的直线，用直线上的点来代表所有的相关点。数理统计证明，用最小平方法配合的直线最理想，最具有代表性。计算 $a$ 与 $b$ 常用最小二乘估计 $(Least Square Estimate)$ 的方法。
　　由散点图可见，虽然 $x$ 与 $y$ 间有直线趋势存在，但并不是一一对应的。每一个值 $x_i$ 与对 $y_i(i=1,2,…,n)$ 用回归方程估计的 $\hat{y_i}$ 值(即直线上的点)或多或少存在一定的差距。这些差距可以用 $(y_i-\hat{y_i})$ 来表示，称为估计误差或残差 $(residual)$ 。要使回归方程比较“理想”，很自然会想到应该使这些估计误差尽量小一些。也就是使估计误差平方和
　　

$Q=\sum\limits^n_{i=1}(y_i-\hat{y_i})^2=\sum\limits^n_{i=1}[y_i-(a+bx_i)]^2$
　　达到最小。对

$Q$ 求关于

$a$ 和

$b$ 的偏导数，并令其等于零，可得

$b=\frac{\sum\limits^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits^n_{i=1}(x_i-\bar{x})^2},a=\bar{y}-b\bar{x}$
　　此处

$l_{xx}$ 表示

$x$ 的离差平方和，

$l_{xy}$ 表示

$x$ 与

$y$ 的离差积和。

三、建立直线回归方程的步骤

　　由散点图观察实测样本资料是否存在一定的协同变化趋势，这种趋势是否是直线的。根据是否有直线趋势确定应拟合直线还是曲线。由本例资料绘制的散点图可见，身高与体重之间存在明显的线性趋势，所以可考虑建立直线回归方程。
　　要考察与之间的数量关系，需建立线性回归方程，以便进行分析、估计和预测，步骤如下：
【例4.2】下面仍以一个例2.2的数据来介绍建立直线回归的步骤：

x=x1 #自变量,数据来自例2.2
y=x2 #因变量,数据来自例2.2
b=lxy(x,y)/lxy(x,x) #线性回归方程斜率
a=mean(y)-b*mean(x) #线性回归方程截距
c(a=a,b=b) #显示线性回归方程估计值

    a        b 
-140.364    1.159

　　于是得回归方程： $\hat{y}=-140.364+1.159x$
　　建立回归方程后，一般应将回归方程在散点图上表示出来，也就是作回归直线。作图时可在自变量 $x$ 的实测范围内任取两个相距相对较远的数值 $x_1$ 、 $x_2$ 代入回归方程，计算得到 $\hat{y_1}$ 、 $\hat{y_2}$ ，用 $(x_1,\hat{y_1})$ 、 $(x_2,\hat{y_2})$ 两点即可作回归直线。

plot(x,y) #做散点图
lines(x,a+b*x) #添加估计方程线

四、回归系数的假设检验

　　由样本资料建立回归方程的目的是对两变量的回归关系进行推断，也就是对总体回归方程作估计。由于抽样误差，样本回归系数 $b$ 往往不会恰好等于总体回归系数 $\beta$ 。如果总体回归系数 $\beta=0$ ，那么 $\hat{y}$ 是常数，无论 $x$ 如何变化，不会影响 $\hat{y}$ ，回归方程就没有意义。当总体回归系数 $\beta=0$ 时，由样本资料计算得到的样本回归系数 $b$ 不一定为0，所以有必要对估计得到的样本回归系数 $b$ 进行检验。检验一般常用方差分析或 $t$ 检验，两者的检验结果是等价的。方差分析主要是针对整个模型的，而 $t$ 检验是关于回归系数的。

1. 方差分析

　　经回归分析，因变量 $y$ 实测值的离均差平方和 $SS_T=\sum\limits^n_{i=1}(y_i-\bar{y})^2=l_{yy}$ ，被分解成两个部分。第一部分 $SS_E=\sum\limits^n_{i=1}(y_i-\hat{y_i})^2$ ，其本质是估计误差的平方和，这部分反映了这组实测值 $y_i$ 扣除了 $x$ 对 $y$ 的线性影响后剩下的变异。另一部分 $SS_R=\sum\limits^n_{i=1}(\hat{y_i}-\bar{y})^2$ 反映了 $x$ 对 $y$ 的线性影响，称为回归平方和或回归贡献，不难证明: $SS_T=SS_R+SS_E$ 。
　　根据方差分析的原理，对回归贡献是否有意义可以用方差分析进行检验。这时总变异的自由度为： $df_T=n-1$ ；由于只有一个自变量，所以回归自由度df_R=1；误差自由度 $df_E=df_T-df_R=n-2$ .有了离差平方和与自由度，即可分别计算回归均方与误差均方，进而得到 $F$ 值。计算公式如下：
　　

$MS_R=\frac{SS_R}{df_R},MS_E=\frac{SS_E}{df_E},F=\frac{MS_R}{MS_E}$
　　其中,

$SS_R=\sum\limits^n_{i=1}(\hat{y_i}-\bar{y})=b\sum\limits^n_{i=1}(y_i-\bar{y})(x_i-\bar{x})=bl_{xy}$

$SS_E=\sum\limits^n_{i=1}(y_i-\hat{y_i})^2=\sum\limits^n_{i=1}(y_i-\bar{y})^2-\sum\limits^n_{i=1}(\hat{y_i}-\bar{y})^2$
本例作方差分析：

$H_0$ :模型无意义，即

$\beta=0$ ,

$H_1$ :模型有意义，即

$\beta\neq0$ ,
取

$\alpha=0.05$ 。

$SS_T=l_{yy}=813.0$

$SS_R=b*l_{xy}=1.159*645.5=748.17$

$SS_E=SS_T-SS_R=813.0-748.17=64.827$

$MS_R=\frac{748.17}{1}=748.17,MS_E=\frac{64.83}{10}=6.483,F=\frac{748.17}{6.483}=115.412$
　　

$F_{1-\alpha}(1,n-2)=F_0.95(1,10)=4.96$ 由于

$F=115.412>4.96$ ,所以有

$P< 0.05$ ，于是在

$a=0.05$ 水平处拒绝

$H_0$ ，即本例回归系数有统计学意义，

$x$ 与

$y$ 间存在直线回归关系。

SST=lxy(y,y) #因变量的离均差平方和
SSR=b*lxy(x,y) #回归平方和
SSE=SST-SSR #误差平方和
MSR=SSR/1 #回归均方
MSE=SSE/(n-2) #误差均方
F= MSR/MSE #F统计量
c(SST=SST,SSR=SSR,SSE=SSE,MSR=MSR,MSE=MSE,F=F) #显示结果

　SST      SSR      SSE      MSR       MSE　    F 
813.000  748.173  64.827   748.173   6.483   115.412

2.t检验

　　当 $\beta=0$ 成立时，样本回归系数 $b$ 服从正态分布。所以也可用 $t$ 检验的方法检验 $b$ 是否有统计学意义。检验时用的统计量：
　　

$t=\frac{b-\beta}{s_b}$~$t(n-2)$
　　

$s_b=\frac{s_{y,x}}{\sqrt{\sum\limits^n_{i=1}(x_i-\hat{x_i})^2}}=\frac{s_{y,x}}{\sqrt{l_{xx}}}$
　　

$s_{y,x}=\sqrt{\frac{\sum\limits^n_{i=1}(y_i-\hat{y_i})^2}{n-2}}=\sqrt{\frac{SS_E}{n-2}}=\sqrt{MSE}$
　　上式中

$s_{y,x}$ 称为剩余标准差或估计标准差

$(standard error of estimate)$ ，是为误差的均方根，它反映了因变量

$y$ 在扣除自变量

$x$ 的线性影响后的离散程度。

$s_{y,x}$ 可以与

$y$ 的标准差

$s_y$ 比较，从而可看出自变量

$x$ 对

$y$ 的线性影响的大小。上式中

$s_b$ 称为样本回归系数

$b$ 的标准误差。
本例作

$t$ 检验：

$H_0:\beta=0,H_1:\beta\neq0　　\alpha=0.05$

$s_{y,x}=\sqrt{MSE}=\sqrt{6.483}=2.5461,$

$s_=\frac{2.5461}{\sqrt{556.9}}=0.1079,$

$t_b=\frac{1.159}{0.1079}=10.743,$

$|t|>t_{(1-\frac{\alpha}{2},n-2)}=t_{(1-\frac{0.05}{2.10})}=2.2281,P<0.05$ 。于是

$\alpha=0.05$ 在水准处拒绝

$H_0$ ，接受

$H_1$ ，认为回归系数有统计学意义，

$x$ 与

$y$ 间存在回归关系。

sy.x=sqrt(MSE) #估计标准差
sb=sy.x/sqrt(lxy(x,x)) #离均差平方和
t=b/sb #t统计量
ta=qt(1-0.05/2,n-2) #t分位数
c(sy.x=sy.x,sb=sb,t=t,ta=ta) #显示结果

sy.x     sb       t      ta 
2.5461  0.1079 10.7430  2.2281

　　上面我们通过 $R$ 语言编程的方式对两变量进行了回归分析，为的是使大家熟悉 $R$ 语言的编程技巧。实际上，在进行线性回归分析时，可直接应用 $R$ 语言自身的拟合线性模型的函数 $lm$ 进行，下面我们就用 $lm$ 函数进行线性回归分析。

线性回归拟合函数lm()的用法
lm(formula, ...)
formula模型公式，如y~x，…其他选项，略

【例4.3】我们知道，财政收入与税收有密切的依存关系。今收集了我国1978年改革开放以来到2008年共31年的税收( $x$ ，百亿元)和财政收入(y，百亿元)数据，见下表4.1所示，以分析税收与财政收入之间的依存关系。
表4.1 1978-2008年税收与财政收入数据(数据见mvstats.xls:d4.3)

	y	x		y	x
1978	11.3262	5.1928	1994	52.1810	51.2688
1979	11.4638	5.3782	1995	62.4220	60.3804
1980	11.5993	5.7170	1996	74.0799	69.0982
1981	11.7579	6.2989	1997	86.5114	82.3404
1982	12.1233	7.0002	1998	98.7595	92.6280
1983	18.6695	7.5559	1999	114.4408	106.8258
1984	16.4286	9.4735	2000	133.9523	125.8151
1985	20.0482	20.4079	2001	163.8604	153.0138
1986	21.2201	20.9073	2002	189.0364	176.3645
1987	21.9935	21.4036	2003	217.1525	200.1731
1988	23.5724	23.9047	2004	263.9647	241.6568
1989	26.6490	27.2740	2005	316.4929	287.7854
1990	29.3710	28.2187	2006	387.602	348.0435
1991	31.4948	29.9017	2007	513.2178	456.2197
1992	34.8337	32.9691	2008	613.3035	542.1962
1993	43.4895	42.5530

　　要考察它们之间的数量关系，需建立线性回归方程，以便进行分析、估计和预测，步骤如下：
1.读入数据

yx=read.table("clipboard",header=T) #加载例4.3数据

2.拟合模型

fm=lm(y~x,data=yx) #一元线性回归模型
fm

Call:lm(formula = y ~ x)
Coefficients:
(Intercept)       x  
 -1.197        1.116

于是得回归方程： $\hat{y}=-1.197+1.116x$
3.作回归直线

plot(y~x,data=yx) #做散点图
abline(fm) #添加回归线

4.回归方程的假设检验
（1）模型的方差分析（ANOVA）

anova(fm) #模型方差分析

Analysis of Variance Table
Response: y
      Df     Sum Sq    Mean Sq    F value     Pr(>F)    
x          1 712076.834 712076.834 27428.1326 < 2.22e-16 ***
Residuals 29    752.885     25.962                          
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1

　　由于 $P< 0.05$ ，于是在 $\alpha=0.05$ 水平处拒绝 $H_0$ ，即本例回归系数有统计学意义， $x$ 与 $y$ 间存在直线回归关系。
（2）回归系数的t检验

summary(fm) #回归系数t检验

lm(formula = y ~ x)
Residuals:
    Min         1Q     Median         3Q        Max 
-6.6295697 -3.6919399 -1.5350531  5.3382063 11.4319756 
Coefficients:
             Estimate   Std. Error   t value Pr(>|t|)    
(Intercept) -1.196562984  1.161245228  -1.03041  0.31133    
x            1.116225390  0.006739905 165.61441  < 2e-16 ***
---
Signif. codes: 0‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1‘ ’1 
Residual standard error: 5.0952478 on 29 degrees of freedom
Multiple R-squared: 0.99894381, Adjusted R-squared: 0.99890739 
F-statistic: 27428.133 on 1 and 29 DF,  p-value: < 2.22045e-16

由于 $P< 0.05$ ，于是 $\alpha=0.05$ 在水平处拒绝 $H_0$ ，接受 $H_1$ ，认为回归系数有统计学意义， $x$ 与 $y$ 间存在回归关系。
注意：本例 $t^2=F(165.6144^2=27428.1326)$ .当 $df_R=1$ 时， $t$ 值的平方等于 $F$ 值( $df_E$ 即为 $t$ 的自由度 $n-2$ )。所以说当自变量只有1个时，方差分析与检验的结果是等价的。但在下面的多元分析中，方差分析与检验的结果并不等价。

4.2 多元线性回归分析

　　回归分析研究的主要对象是客观事物变量间的统计关系。它是建立在对客观事物进行大量实验和观察的基础上，用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法。它与相关分析的主要区别为：一是在回归分析中，解释变量称为自变量，被解释变量称为因变量，处于被解释的特殊地位；而在相关分析中，并不区分自变量和因变量，各变量处于平等地位。二是相关分析中所涉及的变量全是随机变量；而回归分析中，只有因变量是随机变量，自变量可以是随机变量，也可以是非随机变量。三是相关分析研究主要是为刻画两类变量间的线性相关的密切程度；而回归分析不仅可以揭示自变量对因变量的影响大小，还可以由回归方程进行预测和控制。

4.2.1多元线性回归模型的建立

　　上一节已经介绍了一元线性回归分析。研究的是一个因变量与一个自变量间呈直线趋势的数量关系。在实际中，常会遇到一个因变量与多个自变量数量关系的问题。如在例4.1中考察的是1978-2008年全国财政收入与税收之间线性关系，如果我们进一步想考察财政收入和国民生产总值、税收、进出口贸易总额、经济活动人口之间的依存关系。这时需要建立多元回归模型。与一元线性回归(直线回归)类似，一个因变量与多个自变量间的这种线性数量关系可以用多元线性回归方程来表示。
　　

$\hat{y}=b_0+b_1x_1+b_2x_2+...+b_px_p$
　　式中b_0相当于直线回归方程中的常数项

$a$ ，

$b_i(i=1,2,…p)$ 称为偏回归系数

$(Partial Regression Coefficient)$ ，其意义与直线回归方程中的回归系数相似。当其它自变量对因变量的线性影响固定时，

$b_i$ 反映了第

$i$ 个自变量

$x_i$ 对因变量

$y$ 线性影响的大小。这样的回归称为因变量

$y$ 在这一组自变量

$x$ 上的回归。习惯上常称为多元线性回归模型。

一、多元线性回归模型的一般形式

随机变量 $y$ 与一般变量 $x$ 的线性回归模型为：

$y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p+\epsilon$
当我们得到

$n$ 组观测数据

$(x_1,x_2,...,x_p,y_i),i=1,2,…,n$ , 则线性回归模型可表示为：

$\begin{cases}y_1=\beta_0+\beta_1x_{11}+\beta_2x_{12}+...+\beta_px_{1p}+\epsilon_{1}\\y_2=\beta_0+\beta_1x_{21}+\beta_2x_{22}+...+\beta_px_{2p}+\epsilon_{2}\\......\\y_n=\beta_0+\beta_1x_{n1}+\beta_2x_{n2}+...+\beta_px_{np}+\epsilon_{n}\end{cases}$
将其写成矩阵形式为：

$y=X\beta+\epsilon$ ，其中：

$Y=\begin{bmatrix}y_1\\y_2\\...\\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&...&x_{p1}\\1&x_{21}&...&x_{p2}\\...&...&...&...\\1&x_{n1}&...&x_{np}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\...\\\beta_p\end{bmatrix},\epsilon=\begin{bmatrix}\epsilon_1\\\epsilon_2\\...\\\epsilon_n\end{bmatrix}$
通常称

$X$ 为设计阵，

$beta$ 为回归系数向量。

二、线性回归模型的基本假设

由于一元线性回归比较简单，其趋势图可用散点图直观显示，所以，我们对其性质和假定并未作详细探讨。实际上，我们在建立线性回归模型前，需要对模型作一些假定，经典线性回归模型的基本假设前提为：
①解释变量一般说来是非随机变量。
②误差等方差及不相关假定（G-M条件）：
　　　 $\begin{cases}E(\epsilon_i)=0,i=1,2,...,n\\cov(\epsilon_i,\epsilon_j)={\begin{cases}\sigma^2,i=j\\0,i\neq j\end{cases}}\end{cases},i,j=1,2,...,n$
③误差正态分布的假定条件为：
　　　　 $\epsilon_i$ ~ $N(0,\sigma^2),i=1,2,...,n$
④即要求样本容量个数多于解释变量的个数。

三、多元回归参数的最小二乘估计

从多元线性模型的矩阵形式 $y=X\beta+\epsilon$ 可知，若模型的参数 $\beta$ 的估计量 $\hat{\beta}$ 已获得，则 $\hat{y}=X\hat{\beta}$ ，于是残差 $e_i=y_i-\hat{y_i}$ ，根据最小二乘的原理，所选择的估计方法应是估计值 $\hat{y_i}$ 与观察值 $y_i$ 之间的残差 $e_i$ 在所有样本点上达到最小，即使

$Q=\sum\limits^n_{i=1}(y_i-\hat{y_i})^2=e'e=(y-X\hat{\beta})'(y-X\hat{\beta})$
达到最小，根据微积分求极值的原理，

$Q$ 对

$\beta$ 求导且等于0，可求得使

$Q$ 达到最小的

$\hat{\beta}$ ，这就是所谓的最小二乘(LS)法。
另外，还可证明，在正态性假定下，回归参数的LS估计与极大似然(ML)估计完全相同，即：

$\hat{\beta}_{ML}=\hat{\beta}_{LS}$ ，关于回归系数的极大似然估计参见有关文献。
【例4.4】财政收入多元分析
财政收入是指一个国家政府凭借政府的特殊权利，按照有关的法律和法规在一定时期内（一般为一年）取得的各种形式收入的总和，包括税收、企事业收入、国家能源交通重点建设基金收入、债务收入、规费收入、罚没收入等。财政收入水平高低是反映一国经济实力的重要标志。本例共取五个变量进行分析，分析财政收入和国内生产总值、税收、进出口贸易总额、经济活动人口之间的关系。
其中

$l$ : 年份，

$y$ : 财政收入(百亿元)，

$x_1$ : 国内生产总值 (百亿元)，

$x_2$ : 税收(百亿元)，

$x_3$ : 进出口贸易总额(百亿元)，

$x_4$ : 经济活动人口(百万人)。
本案例的样本数据来自中国统计出版社出版的《中国统计年鉴》及海关总署（2008年的经济活动人口为测算值），数据时限为1978-2008年，数据见表4.4所示。
在例4.1中我们发现1978-2008年全国财政收入与税收之间的确存在线性回归关系，为了进一步考察它们和其它变量之间的数量关系，需建立多元线性回归方程，以便进行分析与预测，步骤如下：
表4.4 财政收入多因素分析数据

y	x1	x2	x3	x4
1978	11.3262	36.241	5.1928	3.550
1979	11.4638	40.382	5.3782	4.120
1980	11.5993	45.178	5.7170	5.700
…	…	…	…	…
2007	513.2178	2495.299	456.2197	1667.402
2008	613.3035	3006.7	542.1962	1778.8983

yX=read.table("clipboard",header=T) #加载例4.4数据
(fm=lm(y~x1+x2+x3+x4,data=yX)) #显示多元线性回归模型

lm(formula = y ~ x1 + x2 + x3 + x4)
Coefficients:
(Intercept)           x1           x2           x3     x4
  23.532109    -0.003387     1.164115     0.000292  -0.043742

于是得到多元线性回归方程： $\hat{y}=23.5321-0.003387x_1+1.1641x_2+0.000292x_3-0.04374x_4$

四、标准化偏回归系数

由于自变量 $x_j(j=1,2,...,p)$ 与因变量都是有单位的。从数值上来看，它们样本取值的极差会有很大的差异，均数与标准差也各不相同。所以不能由偏回归系数的大小直接说明对因变量线性影响的大小。对于这个问题常用变量标准化与计算标准化偏回归系数的方法来处理。
对每一个变量（包括因变量）标准化后，再计算方程的偏回归系数，可得到标准化偏回归系数，常用 $\hat{\beta}^*$ 表示:

$\hat{\beta}^*=\hat{\beta_i}\frac{s_i}{s_y}(i=1,2,...,p)$
式中：s_i(i=1,2,...,p)与s_y分别是各自变量和因变量的标准差。
由于标准化后各变量的均值为0，方差为1，所以标准化后的多元回归方程一定是通过原点的，也就是常数项

$\beta_0=0$ 。由于各变量的标准差s_i(i=1,2,...,p)变得相同，各标准化偏回归系数的值可以反映各自变量在其它自变量固定时，对因变量线性影响的大小，也可互相间进行比较。
常用的统计软件都能给出标准化偏回归系数，但R语言中并不包含计算标准回归系数的函数，我们编写了

$coef.sd$ 计算之。例4.4的R软件给出标准化偏回归系数如下：

$\hat{\beta_1}^*=-0.01745,\hat{\beta_2}^*=1.0424,\hat{\beta_3}^*=0.00096,\hat{\beta_4}^*=-0.0371$ ，由标准化偏回归系数可见，税收对财政收入的线性影响最大。

library(mvstats)
coef.sd(fm) #标准化偏回归系数结果

$coef.sd
     x1        x2        x3        x4 
-0.017451  1.042352  0.000963 -0.037105

4.2.2多元线性回归模型的检验

1.回归方程的假设检验

由样本计算得到的这些偏回归系数是总体偏回归系数的估计值。如果这些总体偏回归系数等于0，多元回归方程就没有意义。所以与直线回归一样，在建立起方程后有必要对这些偏回归系数作检验。对多元回归方程作假设检验也可以用方差分析。
因变量的离均差平方和经回归分析被分解成两个部分。

$SS_T=\sum\limits^n_{i=1}(y_i-\bar{y})^2=\sum\limits^n_{i=1}(y_i-\hat{y_i})^2+\sum\limits^n_{i=1}(\hat{y_i}-\bar{y})^2=SS_R+SS_E$
这与单变量回归是一样的。同时，自由度也被分解成两个部分。其中回归自由度就是自变量的个数。

$df_R=p,df_E=df_T-df_R=(n-1)-p=n-p-1$
由此可分别计算两部分的均方：

$MS_R=\frac{SS_R}{df_R}=\sum\limits^n_{i=1}\frac{(\hat{y_i}-\bar{y})^2}{p}$

$MS_E=\frac{SS_E}{df_E}$
方差分析的检验假设是：

$H_0:\beta_1=\beta_2=...=\beta_p=0$ ，这就意味着因变量

$y$ 与所有的自变量

$x_j$ 都不存在回归关系，多元回归方程没有意义。相应的备择假设：

$H_1:\beta_1,\beta_2,...,\beta_p$ 不全为0，

$H_0$ 成立时，有：

$F=\frac{MS_R}{MS_E}$ ~

$F(p,n-p-1)$
即

$F$ 服从

$F$ 分布。这样就可以用F统计量来检验回归方程是否有意义。

2. 回归系数的假设检验

多元回归方程有统计学意义并不说明每一个偏回归系数都有意义。所以有必要对每个偏回归系数作检验。在 $\beta_j=0$ 时，偏回归系数 $\hat{\beta_j}（j=1,2,…,p）$ 服从正态分布，所以可用 $t$ 统计量对偏回归系数作检验。
检验假设 $H_{0j}:\beta_j=0,H_{1j}:\beta_j\neq0$ 。
当 $H_0j$ 成立时，而 $\hat{\beta}$ ~ $N(\beta,\sigma^2(X'X)^{-1})$ ，记 $(X'X)^{-1}=(c_{ij})$ 。
则我们构造的 $t$ 统计量为：
$t_j=\frac{\hat{\beta_j}-\beta_j}{s_{\hat{\beta_j}}}j=1,2,…, p$
式中 $s_\hat{\beta_j}$ 是第 $j$ 个偏回归系数的标准误差。其计算比较复杂，

$s_\hat{\beta_j}=\sqrt{c_{jj}}s_{y,x}$

$s_{y,x}=\sqrt{\frac{\sum\limits^n_{i=1}(y_i-\hat{y_i})^2}{n-p-1}}=\sqrt{\frac{SS_E}{df_E}}=\sqrt{MS_E}$
与单变量情形一样，s_{y,x}称为剩余标准差或标准估计误差，也反映了因变量

$y$ 在扣除各自变量

$x$ 的线性影响后的变异程度；

$s_{y,x}$ 可以与

$y$ 的标准差

$s_y$ 比较，从而可看出所有自变量

$x$ 对

$y$ 的线性影响大小。
当原假设

$H_0:\beta_j=0$ 成立时，上面的

$t$ 统计量服从自由度为

$n-p-1$ 的

$t$ 分布。给定显著性水平

$\alpha$ ，查出双侧检验的临界值

$t_{1-\frac{\alpha}{2}}$ 。当

$|t_j|\geq t_{1-\frac{\alpha}{2}}$ 时拒绝零假设

$H_0:\beta_j=0$ ，认为

$\beta_j$ 显著不为零，自变量

$x_j$ 对因变量

$y$ 的线性效果显著；当时接受零假设，认为为零，自变量对因变量的线性效果不显著。
一般统计软件在完成多元回归分析同时都会输出方差分析与

$t$ 检验的结果。其中

$t$ 检验结果给出了每个偏回归系数和常数项的值、它们的标准误差、

$t$ 值与相应的

$P$ 值。

summary(fm) #多元线性回归系数t检验

Call:
lm(formula = y ~ x1 + x2 + x3 + x4)
Residuals:
   Min     1Q Median     3Q    Max 
 -5.02  -2.14   0.33   1.26   6.97 
Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 23.532109   4.599071    5.12  2.5e-05 ***
x1          -0.003387   0.008075   -0.42     0.68    
x2           1.164115   0.040489   28.75  < 2e-16 ***
x3           0.000292   0.008553    0.03     0.97    
x4          -0.043742   0.009264   -4.72  7.0e-05 ***
---
Signif. codes:  0‘***’ 0.001‘**’ 0.01‘*’ 0.05‘.’ 0.1‘ ’ 1 
Residual standard error: 2.79 on 26 degrees of freedom
Multiple R-squared:    1,       Adjusted R-squared:    1 
F-statistic: 2.29e+04 on 4 and 26 DF,  p-value: <2e-16

由方差分析结果可见，模型的 $F$ 值为22893， $P<0.0001$ ，认为回归模型有意义的。
表4.3参数估计及检验

变量	回归系数 $\hat{\beta}$	标准误 $s_\hat{\beta}$	t值	P值	标准回归系数 $\hat{\beta^*}$
x0	23.5321	4.599	5.12	2.5e-05	……
x1	-0.003387	0.0081	-0.42	0.68	-0.01745
x2	1.16411	0.0405	28.75	<2-e-16	1.04235
x3	0.000292	0.0085	0.03	0.95	0.00096
x4	-0.04374	0.0092	-4.72	7.0e-05	-0.03710

由t检验结果可见，偏回归系数 $b_2$ 、 $b_4$ 的 $P$ 值都小于0.01，可认为解释变量税收 $x_2$ 、经济活动人口 $x_4$ 显著； $b_1$ 、 $b_3$ 的P值大于0.50，不能否定 $\beta_1=0,\beta_3=0$ 的假设，可认为国内生产总值 $x_1$ 、进出口贸易总额 $x_3$ 对财政收入 $y$ 没有显著的影响。我们可以看到，国内生产总值、经济活动人口所对应的偏回归系数都为负，这与经济现实是不相符的。出现这种结果的可能原因在于，这些解释变量之间存在高度的共线性。

4.3 多元相关分析

在相关分析中，研究较多的是两个变量之间的关系，称为简单相关；当涉及到的变量为三个或者三个以上时，称为偏相关或复相关。实际上，偏相关和复相关是对简单相关的一种推广。
在一些情况下，我们只想了解两变量之间有无线性相关关系，并不需要建立它们之间的回归模型，也不需要区分自变量和因变量，这时，就可用较为方便的相关分析方法。

4.3.1多元线性相关

设 $x_1,x_2,...,x_n$ ，来自正态总体 $N_p(\mu,\sum)$ 容量为 $n$ 的样本，样本资料阵为:

$X=\begin{bmatrix}x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\...&...&...&...\\x_{n1}&x_{n2}&...&x_{np}\end{bmatrix}$
此时，任意两个变量间的相关系数构成的矩阵为：

$R=\begin{bmatrix}r_{11}&r_{12}&...&r_{1p}\\r_{21}&r_{22}&...&r_{2p}\\...&...&...&...\\r_{p1}&r_{p2}&...&r_{pp}\end{bmatrix}=\begin{bmatrix}1&r_{12}&...&r_{1p}\\r_{21}&1&...&r_{2p}\\...&...&...&...\\r_{n1}&r_{n2}&...&1\end{bmatrix}=(r_{ij})_{p\times p}$
其中

$r_{ij}$ 为任意两变量之间的简单相关系数，即

$r_{ij}=\frac{\sum(x_i-\bar{x}_i)(x_j-\bar{x}_j)}{\sqrt{\sum(x_i-\bar{x}_i)^2(x_j-\bar{x}_j)^2}}$
【例4.5】(续例4.4)财政收入与其他变量间的相关分析。
计算财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口两两之间相关系数，表4.9给出了相关系数的假设检验统计量。
首先我们计算变量两两间的相关系数

cor(yX) #多元数据相关系数矩阵

  y     x1     x2     x3     x4
y  1.0000 0.9871 0.9995 0.9912 0.6957
x1 0.9871 1.0000 0.9907 0.9868 0.7818
x2 0.9995 0.9907 1.0000 0.9917 0.7154
x3 0.9912 0.9868 0.9917 1.0000 0.7074
x4 0.6957 0.7818 0.7154 0.7074 1.0000

再给出变量两两间的矩阵散点图，见下图。

矩阵散点图函数pairs()的用法
pairs(x, ...)
x 数值矩阵或数据框

pairs(yX) #多元数据散点图

由于没有现成的进行相关系数矩阵的假设检验，下面编写计算相关系数的值和值的函数corr.test()。

相关矩阵检验函数corr.test()的用法
corr.test(X, ...)
X数值矩阵或数据框

library(mvstats)
corr.test(yX) #多元数据相关系数检验

         y     x1     x2    x3 x4
y    0.000  0.000  0.000 0.000  0
x1  33.267  0.000  0.000 0.000  0
x2 165.614 39.214  0.000 0.000  0
x3  40.336 32.772 41.560 0.000  0
x4   5.215  6.752  5.514 5.389  0
左下角为t值，右上角为p值

表4.8相关系数的假设检验统计量

y	x1	x2	x3	x4
y		0.0000	0.0000	0.0000
x1	33.267		0.0000	0.0000
x2	165.614	39.214		0.0000
x3	40.336	32.772	41.560
x4	5.215	6.752	5.514	5.389

注：下三角为相关系数值，上三角为概率值
从结果可以看出，财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口之间的关系都非常密切 $(r>0.8,P<0.001)$ ，财政收入与税收之间的关系最为密切 $(r=0.9995,P<0.001)$ 。

4.3.2复相关分析

以上都是在把其它变量的影响完全排除在外的情况下研究两个变量之间的相关关系。但是在实际分析中，一个变量的变化往往要受到多种变量的综合影响，这时就需要采用复相关分析方法。所谓复相关，就是研究多个变量同时与某个变量之间的相关关系，度量复相关程度的指标是复相关系数。

1. 复相关系数的计算

设因变量为 $y$ ，自变量为 $x_1,x_2,...,x_p$ ，假定回归模型为

$y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p+e$

$\hat{y}=b_0+b_1x_1+b_2x_2+...+b_px_p$
对

$y$ 与

， ， ，

$x1，x2，…，xp$ 作相关分析就是对

$y$ 与

$\hat{y}$ 作相关分析，记

$r_{y·x_1x_2…x_p}$ 为

$y$ 与

， ， ，

$x1，x2，…，xp$ 的复相关系数，而

$r_y$ 可以看做

$y$ 与

$\hat{y}$ 的简单相关系数。于是

$y$ 与

， ， ，

$x_1，x_2，…，x_p$ 的复相关系数计算公式为：

$R=corr(y,x_1,x_2,...,x_p)=cprr(y,\hat{y})=\frac{cov(y,\hat{y})}{\sqrt{var(y)var(\hat{y})}}=\sqrt{\frac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2}}$

2. 决定系数

在类似多元回归分析这类问题中，研究者常希望知道因变量与一组自变量间的相关程度，即复相关。如例4.4的资料，研究者希望分析财政收入与国民生产总值和税收等指标间的相关程度。为此可计算复相关系数 $R$ ，

$R=\sqrt{\frac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2}}=\sqrt{\frac{SS_R}{SS_T}}$
复相关系数反映了一个变量与另一组变量关系密切的程度。复相关系数的假设检验等价于多元回归的方差分析结果，所以不必再作假设检验。
再看公式根号里的分式实际上就是回归离差平方和与总离差平方和的比值，反映了回归贡献的百分比值。所以常把

$R^2$ 称为决定系数或相关指数。

$R={\frac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2}}={\frac{SS_R}{SS_T}}$
本例

$R^2=0.9999^2=0.9997$ 。

$R^2$ 在评价多元回归方程、变量选择、曲线回归方程拟合的好坏程度中常会用到。

(R2=summary(fm)$r.sq) #显示多元线性回归模型决定系数

0.9997

(R=sqrt(R2)) #显示多元数据复相关系数

0.9999

4.4 回归变量的选择方法

多元回归分析在实际中有广泛的应用, 由上章分析知，其主要用途有: ①用于描述解释现象, 这时希望回归方程中所包含的自变量尽可能少一些; ②用于预测, 这时希望预测的均方误差较小; ③用于控制,这时希望各回归系数具有较小的方差和均方误差。在实际问题中可以提出许多对应变量有影响的自变量, 变量选择太少或不恰当, 会使建立的模型与实际有较大的偏离; 而变量选得太多, 使用不便, 并且有时也会削弱估计和预测的稳定性, 所以变量选择问题是一个十分重要的问题。也就是说，在多元回归分析中，并不是变量越多越好,变量太多，容易引起以下几个问题：(1)变量多增加了模型的复杂度；(2)计算量增大；(3) 估计和预测的精度下降；(4)模型应用费用增加。

4.4.1 变量选择准则

为解决以上问题, 人们提出了许多变量选择的准则，如全部子集法、向后删除法、向前引入法、逐步回归法等方法, 下面分别简单介绍这些方法。

一、全局择优法：根据一些准则（criterion）建立“最优”回归模型。

从理论上说，自变量选择最好的方法是所有可能回归法，即建立因变量和所有自变量全部子集组合的回归模型，也称全部子集法。
对于含有 $p$ 个自变量的回归模型来说，含有0个自变量（仅有常数项）的子集有 $C^0_p$ 个，含有1个自变量的子集有 $C^1_p$ 个，含有2个自变量的子集有 $C^2_p$ 个，…，含有p个自变量的子集有 $C^p_p$ 个，共有 $C_p^0+C_p^1+C_p^2+…+C_p^p= 2^P$ 个模型。
求出所有可能的回归模型（共有 $2^p$ 个）对应的准则值，按一定准则选择最优模型。
对于每个模型，在实用上，从数据与模型拟合优劣的直观考虑出发，基于残差（误差）平方和 $RSS$ （Residual Sum of Squares，即方差分析表中SSE）的变量选择准则使用的最多。误差平方和愈小，回归方程的拟合越理想。而且，复相关系数的平方（决定系数） $R^2=1-\frac{RSS}{SS_T}$ ，对一个确定的问题， $SS_T$ 确定，基于残差（误差）平方和 $RSS$ 的变量选择准则与基于决定系数 $R^2$ 的变量选择准则意义是等价的，决定系数 $R^2$ 越大，回归方程的拟合越理想。
下面以残差平方和 $RSS$ 和复相关系数的平方 $R^2$ 为准则介绍变量选择的过程：
【例4.6】（续例4.4），在“财政收入”数据中，有4个自变量： $x_1,x_2,x_3,x_4$ 。
　　所有可能的模型可分为5组子集：
　　子集 $A:y=b_0=>C_4^0=1$
　　子集 $B:y=b_0+b_ix_i,i=1,2,3,4=>C^1_4=4$
　　子集 $C:y=b_0+b_ix_i+b_jx_j,i\neq j,i,j=1,2,3,4=>C^2_4=6$
　　子集 $D:y=b_0+b_ix_i+b_jx_j+b_kx_k,i\neq j\neq k,i,j,k=1,2,3,4=>C^3_4=4$
　　子集 $E:y=b_0+b_1x_1+b_2x_2+b_3x_3+b_4x_4=>C^4_4=1$
　　=>总共有 $C^0_4+C^1_4+C^2_4+C^3_4+C^4_4=2^4=16$

总共有个模型。

1.RSS和 $R^2$ 准则变量的选取:

对每组子集，挑出 $RSS$ 最小的和 $R_2$ 最大的变量，得下列模型:
表4.9例4.4数据的RSS与R2准则回归子集

子集	Models	RSS	R2
子集B	$y=b_0+b_2x_2$	752.88	0.99894
子集C	$y=b_0+b_2x_2+b_4x_4$	203.88	0.99971
子集 D	$y=b_0+b_1x_1+b_2x_2+b_4x_4$	202.35	0.99972
子集 E	$y=b_0+b_1x_1+b_2x_2+b_3x_3+b_4x_4$	202.34	0.99972

注意：在本书中残差平方和用SSE表示,等同于R中RSS。

library(leaps) #加载leaps包
varsel=regsubsets(y~x1+x2+x3+x4,data=yX) #多元数据线性回归变量选择模型
result=summary(varsel) #变量选择方法结果
data.frame(result $outmat,RSS=result$ rss,R2=result$rsq) #RSS和决定系数准则结果展示

      x1 x2 x3 x4    RSS      R2
1  ( 1 )     *       752.88 0.99894
2  ( 1 )     *     * 203.88 0.99971
3  ( 1 )  *  *     * 202.35 0.99972
4  ( 1 )  *  *  *  * 202.34 0.99972

2.RSS和 $R^2$ 准则的优点：

具有较大的 $R^2$ 对较少自变量的模型应该是好的选择，较大的意味着有好的拟合效果，而较少的变量个数可减轻信息的收集和控制。

3.RSS和 $R^2$ 准则的缺点：

对于有 $p$ 个自变量的回归模型来说，当自变量子集在扩大时，残差平方和随之减少（可以证明 $RSS_p\leq RSS_{p-1}$ ，进而 $R^2_p\geq R^2_{p-1}$ ），因此，如果按“ $RSS$ 愈小愈好”和按“ $R_p^2$ 愈大愈好”的原则来选择自变量子集，则毫无疑问应该选全部自变量，所以说，在实际中，“RSS愈小愈好”和“ $R^2_p$ 愈大愈好”不能作为一个选择自变量的法则。
另外，在上述 $R^2$ 准则的选择中，本案例的如下两个模型
$Y=b_0+b_1x_1+b_2x_2+b_4x_4$ 和 $Y=b_0+b_2x_2+b_3x_3+b_4x_4$ 就很难选取。
这主要是因为 $x_1$ 和 $x_3$ 高度相关，其相关系数0.9868。因而它们 $R^2$ 的一样就不奇怪了。

二、变量选择的常用准则

由于在实际的变量选择问题中，我们的主要目的就是设法防止选取过多的自变量，而基于直观考虑的残差平方和准则和复相关系数平方准则最终都将选取所有自变量，所以常用的做法是在残差平方和RSS上添加对变量的惩罚因子。

1. 平均残差平方和最小准则

$RMS_p=\frac{RSS_p}{n-p}$
这里 $p$ 为所选模型的变量个数（每个模型皆包括常数项），因 $(n-p)^{-1}$ 随着自变量个数 $p$ 的增加而增加，它体现了变量个数增加对 $RSS$ 增加的惩罚。于是有平均残差平方和最小准则：按“ $RMS$ 愈小愈好”选取自变量。

2. 误差均方根 $MSE$ 最小准则

$MES_p=\sqrt{RMS_p}$
$MSE_p$ 实际上就是模型的剩余标准差 $s_{y,x}$ ，它越小，说明模型拟合的越好，当然，选模型中最小的 $MSE_p$ 所对应的模型就是最好的模型，所得结论同 $RMS_p$ 等价。

3. 校正复相关系数平方（Adjusted $R^2$ ）准则：

$adjR^2=1-\frac{n-1}{n-p}(1-R^2)$
$adjR^2=1-\frac{n-1}{n-p}(1-R^2)=1-\frac{RSS_p/(n-p)}{SS_T/(n-1)}=1-\frac{n-1}{SS_T}RMS_p$
由于对一个具体问题， $SS_T$ 不变，所有这个准则也就等价于 $RMS_p$ 准则。 $adjR^2$ 越大,说明模型拟合的越好。

4. $C_p$ 准则

近年来，一个得到广泛重视的变量选择准则是基于1964年C.Mallows提出 $C_p$ 的统计量，统计量 $C_p$ 是从预测的角度出发，基于残差平方和的一个准则。
$C_p=\frac{RSS_p}{s^2}-(n-2p)=\frac{RSS_p}{RMS}-(n-2p)=\frac{(n-p)RMS_p}{RMS}-(n-2p)$
这里 $C$ 即criterion， $p$ 为所选模型中变量的个数； $Cp$ 接近p模型为最优。其中 $s^2$ 为全模型的均方误差 $RMS$ 。
Cp法则为：选择对应点的(p,Cp)最接近第一象限角平分线，且 $Cp$ 最小的模型。

5. AIC准则BIC准则

Akaike Information Criterion）和BIC （Bayesian Information Criterion）是多元回归中选择模型的两条重要准则。在多元回归分析中，为了防止过度拟合等问题（既要使模型的解释性强，又要有一点的张力），Akaike （1978）和Schwarz（1978）分别提出了AIC 和BIC 作为回归模型选择的标准。在回归模型中，这两个值都是越小越好。它不仅可用于回归变量选择中，还可用于时间序列分析的自回归模型的定阶上。
回归分析中选择变量的AIC准则为：
$AIC=nln(\frac{Rss_p}{n})+2p$
$BIC=nln(\frac{RSS_p}{n})_pln(n)$
AIC和BIC选择变量的准则是：按“AIC或BIC愈小愈好”选取自变量。
对每组子集，挑出 $C_p$ 和BIC最小的变量，得下列模型:
表4.10例4.4数据的Cp与BIC准则回归子集

子集	Models	$adjR^2$	Cp	BIC
子集B	$y=b_0+b_2x_2$	0.9989	69.745	-205.6
子集C	$y=b_0+b_2x_2+b_4x_4$	0.9997	1.199	-242.6
子集 D	$y=b_0+b_1x_1+b_2x_2+b_4x_4$	0.9997	3.001	-239.4
子集 E	$y=b_0+b_1x_1+b_2x_2+b_3x_3+b_4x_4$	0.9997	5.000	-236.0

对例4.4，上面给出了所选模型的值 $C_p$ ， $C_p$ 的最小值对应的变量子集为(x_0,x_2,x_4)， $C_p=1.199,(x_0,x_2,x_4)$ 对应的(1+2,1.199)=(3,1.199)最接近第一象限角平分线。另外一些较小的 $C_p$ 统计量分别对应于(x_0,x_1,x_2,x_4)，对这个变量子集，其对应的(1+3,3.001)=(4,3.001)也接近第一象限角平分线，如果没有别的附加考虑，在 $C_p$ 准则下，(x_0,x_2,x_4)是“最优”子集。
而BIC准则选择的“最优”子集是(x_0,x_2,x_4)。

data.frame(result＄outmat,adjR2=result＄adjr2,Cp=result＄cp,BIC=result$bic)
#调整决定系数,Cp和BIC准则结果展示

      x1 x2 x3 x4  adjR2     Cp    BIC
1  ( 1 )     *       0.9989 69.745 -205.6
2  ( 1 )     *     * 0.9997  1.199 -242.6
3  ( 1 )  *  *     * 0.9997  3.001 -239.4
4  ( 1 )  *  *  *  * 0.9997  5.000 -236.0

三、全局择优法的局限性

如果自变量个数为4，则所有的回归有 $2^4-1=15$ 个，当自变量个数为10时，所有可能的回归为 $2^{10}-1=1023$ 个，…，当自变量数个数为50时，所有可能的回归为 $2^{50}-1≈1015$ 个，当p很大时，数字 $2^p$ 大得惊人，有时计算是不可能的，于是就提出了所谓逐步回归的方法。

4.4.2逐步回归分析

一、逐步回归分析的概念

在作实际多元线性回归时常有这样情况, 变量 $x_1,x_2,...,x_p$ 相互之间常常是线性相关的，即在 $x_1,x_2,...,x_p$ 中任何两个变量是完全线性相关的, 即相关系数为1, 则矩阵 $X'X$ 的秩小于 $p,(X'X)^{-1}$ 就无解。当变量 $x_1,x_2,...,x_p$ 中任有两个变量存在较大的相关性时, 矩阵 $X'X$ 处于病态, 会给模型带来很大误差。因此作回归时, 应选变量 $x_1,x_2,...,x_p$ 中的一部分作回归, 剔除一些变量。逐步回归法就是寻找较优子空间的一种变量选择方法。
在前面的章节中，我们给出了一般多元线性回归方程的求法，但是细心的读者也许会注意到，在那里不管自变量 $x_i$ 对因变量 $y$ 的影响是否显著，均可进入回归方程，这样就带来误差的自由度变小，而误差自由度的变小，就使得误差的均方增大，即估计的精度变低。另外在许多实际问题中，往往自变量 $x_1,x_2,...,x_p$ 之间并不是完全独立的，而是有一定的相关性存在，如果回归模型中的某两个自变量 $x_i$ 和 $x_j$ 的相关系数比较大，就可使得正规方程组的系数矩阵出现病态，也就是所谓多重共线性的问题，将导致回归系数的估计值的精度不高。
在例4.4中，虽然回归方程的检验是高度显著的，但是回归系数的检验结果只有 $x_2$ 和 $x_4$ 是显著的，而 $x_1$ 和 $x_3$ 却不显著，这样的回归方程不能称为最佳回归方程。因此，我们总是希望，不但求得的回归方程是显著的，而且在回归方程中的自变量也都是尽可能显著的，也就是要选择最佳的回归模型。选择最佳回归模型的方法很多，而逐步回归分析方法就是其中的一种。

二、逐步变量选择的方法

在后面的讨论中，如果对回归方程增加自变量 $x_i$ ，则称为“引入”变量 $x_i$ ；如果要将已在回归方程中的自变量 $x_i$ 从回归方程中删掉，则称为“剔除”变量 $x_i$ 。无论引入变量或剔除变量，都要利用F检验，将显著的变量引入回归方程，而将不显著的变量从回归方程中剔除。记引入变量的F检验的临界值为 $F_进$ ，剔除变量的F检验的临界值为 $F_出$ ，一般 $F_进>F_出$ ，它的确定原则一般是，对p个自变量的n组样品数据，估计可能进入回归方程的变量为m个 $（m<p）$ ，则对给定的显著性水平 $\alpha$ ，确定F值，记为 $F^*$ ，则可取 $F_进＝F_出＝F^*$ 。一般来说也可以直接取 $F_进＝F_出＝3.84$ 或2.71。当然，为了回归方程中还能多进入一些自变量，甚至也可以取为2.0或2.5。

1. 向前引入法（Forward）

首先对全部p个自变量，分别对因变量y建立一元回归方程，并分别计算这p个一元回归方程的p个回归系数的F检验值记为 ${F_1^1,F_1^2,...,F_1^p}$ ，选其最大的记为 $F_j^1=max｛F_1^1,F_2^1,...F_p^1｝$ ，若有 $F_j^1$ > $F_进$ ，则首先将 $x_j$ 引入回归方程,不失一般性,设 $x_j$ 就是 $x_1$ 。
接着考虑 $（x_1，x_2），（x_1，x_3），…,（x_1，x_p）$ 分别与因变量y建立二元回归方程，对于这p-1个回归方程中 $x_2, x_3,…, x_p$ 的回归系数进行F检验，计算得的F值，记为 $F_2^2, F_3^2,…,F_p^2$ 并选其最大的记为 $F_k^2=max｛F_2^2,F_3^2,...F_p^2｝$ 。若有 $F_k^2> F_进$ ，则接着将 $x_k$ 再引入回归方程，不失一般性，设 $x_k$ 就是 $x_2$ 。
对已经引入回归方程的变量 $x_1$ 和 $x_2$ ，如同前面的方法做下去，直至所有未被引入方程的变量的F值均小于 $F_进$ 时为止。这时的回归方程就是最终选定的回归方程。换种说法，向前引入法即从一个变量开始, 每次引入一个对y影响显著的变量, 直到无法引入为止。这种方法的要点是从一个变量开始, 将回归变量逐个引入回归方程, 它要先计算y同各个变量的相关系数, 对于相关系数绝对值最大的变量, 对其偏回归平方和(复相关系数) 作显著性检验, 如果显著就引入方程, 这种方法, 只是对变量的引入把关, 变量引入之后, 不论以后是否会变成不显著, 概不剔除。
显然，这种增加法有一定的缺点，主要是，它不能反映后来变化的情况。因为对于某个自变量，它可能开始是显著的，即将其引入到回归方程。但是，随着以后其它自变量的引入，它可能又变为不显著的了，但是，也并没有将其及时从回归方程中剔除掉。也就是增加变量法，只考虑引入而不考虑剔除。

2. 向后剔除法（Backward）

与向前引入法相反，向后剔除法是：首先是建立全部自变量 $x_1, x_2,…, x_p$ 对因变量y的回归方程，然后对p个回归系数进行F检验，记求得的F值为 $｛F_1^1, F_2^1,…,F_p^1｝$ ，选其最小的记为 $F_j^1=min｛F_1^1, F_2^1,…,F_p^1｝$ ，若有 $F_j^1\leq F_出$ ，则可以考虑将自变量 $x_j$ 从回归方程中剔除掉，不妨设 $x_j$ 就取为 $x_1$ 。
再对 $x_2, x_3,…, x_p$ 对因变量y建立的回归方程中的回归系数进行F检验，记求得的F值为 $｛F_2^2, F_3^2,…,F_p^2｝$ 。再取其中最小的，记为 $F_k^2＝min｛F_2^2, F_3^2,…,F_p^2｝$ ，若有 $F_k^2<F_出$ ，则接着将 $x_k$ 也从回归方程中剔除掉。不妨设 $x_k$ 就是 $x_2$ 。重复前面的做法，…，直至在回归方程中的变量F检验值均大于 $F_出$ ，即没有变量可剔除时为止，这时的回归方程就是最终的回归方程。
总之，向后剔除法即从包含全部p个变量的回归方程中, 根据判据, 每次剔除一个对y影响不显著的变量, 直到无法剔除为止。即从包含全部变量的回归方程中逐步剔除不显著变量。先建立全部变量的回归方程, 然后对每一变量作显著性检验, 剔去不显著变量中偏回归平方和最小的一个变量, 重新建立方程; 然后重复上面的过程, 直至方程中每个变量都显著为止。许多文献中都认为这种方法在变量不多、且不显著变量也不多时可以采用; 而当变量较多时, 特别是不显著变量很多时, 计算工作量是相当大的, 因为每剔除一个因子后就得重新计算回归系数。
这种剔除法有一个明显的缺点，就是一开始把全部自变量都引入回归方程，这样计算量比较大。若对一些不重要变量，一开始就不引入，这样便可以减少一些计算量。

3.逐步筛选法（Stepwise）

前面的变量引入法，只考虑增加变量，不考虑剔除，也就是对任何一个变量，一旦被引入回归方程，不管其以后在回归方程中的作用发生什么变化（即使变得不显著了），也不考虑将其剔除。反之，变量剔除法，只考虑剔除，而不考虑增加。如果自变量 $x_1, x_2,…, x_p$ 是完全独立的，那么利用两种方法所求得的两个回归模型之间是完全没有显著差异的。但是，在许多实际问题的数据中，自变量 $x_1, x_2,…, x_p$ 之间往往并不是独立的，而是有一定的相关性存在的，这就会使得随着回归方程中变量的增加和减少，某些自变量对回归方程的贡献也会发生变化。因此一种很自然的想法是将前两种方法结合起来，也就是对每一个自变量，随着其对回归方程贡献的变化，它随时可能被引入回归方程或被剔除出去，最终的回归模型是，在回归方程中的自变量均为显著的，不在回归方程中的自变量均为不显著。也就是说，逐步筛选法是综合上述两种方法的特点, 建立的一种新方法, 其基本思想是, 在所考虑的全部变量中, 按其对预报变量y作用的显著程度大小, 挑选一个最重要变量, 建立只包含这个变量的回归方程; 接着对其他变量计算偏回归平方和, 引入一个显著性的变量, 建立具有两个变量的回归方程; 从此之后, 逐步回归的每一步(引入一个变量或从回归方程中剔除一个变量都算作一步) 前后都要作显著性检验, 即反复进行两个步骤: 第一, 对已在回归方程中的变量作显著性检验, 显著者保留, 把最不显著的那个变量从方程中剔除掉; 第二, 对不在回归方程中的其余变量, 挑选最重要的那一个进入回归方程, 直至最后回归方程中再也不能剔除任一变量, 同时也不能再引入变量为止, 保证最后所得回归方程中所有变量都为显著变量。这种方法和所谓选择全部回归子集的方法在一般情况下是很好的, 特别是整个模型满足线性回归的基本假定时效果较好。
逐步回归的计算步骤为, 从一个变量开始做:（1）每次选入一个对y影响显著的变量, 直到无法选入时转到(2); (2)每次剔除一个对y影响不显著的变量，直到无法剔除时转到(1)。当无法选入也无法剔除时停止筛选，以使最后回归方程只保留重要的变量。

fm=lm(y~x1+x2+x3+x4, data=yX) #多元数据线性回归模型
fm.step=step(fm,direction="forward") #向前引入法变量选择结果

Start:  AIC=68.15
y ~ x1 + x2 + x3 + x4

fm.step=step(fm,direction="backward") #向后剔除法变量选择结果

Start:  AIC=68.15
y ~ x1 + x2 + x3 + x4
       Df Sum of Sq  RSS  AIC
- x3    1     0.009  202   66
- x1    1         1  204   66
<none>               202   68
- x4    1       174  376   85
- x2    1      6433 6635  174
Step:  AIC=66.16
y ~ x1 + x2 + x4
       Df Sum of Sq  RSS  AIC
- x1    1         2  204   64
<none>               202   66
- x4    1       197  400   85
- x2    1      7382 7585  176
Step:  AIC=64.39
y ~ x2 + x4
       Df Sum of Sq    RSS    AIC
<none>                 204     64
- x4    1       549    753    103
- x2    1    367655 367859    295
-

fm.step=step(fm,direction="both") #逐步筛选法变量选择结果

Start:  AIC=68.15
y ~ x1 + x2 + x3 + x4
       Df Sum of Sq  RSS  AIC
- x3    1     0.009  202   66
- x1    1         1  204   66
<none>               202   68
- x4    1       174  376   85
- x2    1      6433 6635  174
Step:  AIC=66.16
y ~ x1 + x2 + x4
       Df Sum of Sq  RSS  AIC
- x1    1         2  204   64
<none>               202   66
+ x3    1     0.009  202   68
- x4    1       197  400   85
- x2    1      7382 7585  176
Step:  AIC=64.39
y ~ x2 + x4
       Df Sum of Sq    RSS    AIC
<none>                 204     64
+ x1    1         2    202     66
+ x3    1      0.18    204     66
- x4    1       549    753    103
- x2    1    367655 367859    295
-

案例分析：财政收入的相关与回归分析

财政收入的规模大小对一个国家来说具有十分重要的意义，本案例不同于例4.4，分别从财政收入的组成因素和财政收入的影响因素两个方面入手对我国1979~1999年度财政收入情况进行多因素分析，其中在财政收入影响因素分析上本文除了通过理论选出因素利用统计软件建立模型分析外，还把影响财政收入的结构因素进行了个别分析。结论还在分析结果的基础上，结合了当前的客观条件和政策因素对未来财政收入作了一定的展望。
一、数据管理
本案例在书中例4.4的基础上，进一步收集影响财政收入的9个因素：GDP、能源消费总量、从业人员总数、全社会固定资产投资总额、实际利用外资总额、全国城乡居民储蓄存款年底余额、居民人均消费水平、消费品零售总额和居民消费价格指数，数据见下表Case4。
其中t: 年份，y: 财政收入， $x_1$ ：GDP； $x_2$ ：能源消费总量； $x_3$ ：从业人员总数； $x_4$ ：全社会固定资产投资总额； $x_5$ ：实际利用外资总额； $x_6$ ：全国城乡居民储蓄存款年底余额； $x_7$ ：居民人均消费水平； $x_8$ ：消费品零售总额； $x_9$ ：居民消费价格指数。
二、R语言操作
1. 调入数据
选中Case3中的数据并复制，然后在Rstudio编辑器中执行

Case3=read.table("clipboard",header=T)。

相关分析
从相关分析结果可以看到财政收入(y)与国内生产总值 $(x_1)$ 、能源消费总量 $(x_2)$ 、从业人员总数 $(x_3)$ 、全社会固定资产投资总额 $(x_4)$ 、实际利用外资总额 $(x_5)$ 、全国城乡居民储蓄存款年底余额 $(x_6)$ 、居民人均消费水平 $(x_7)$ 、消费品零售总额 $(x_8)$ 和居民消费价格指数 $(x_9)$ 的相关系数分别为0.985、0.772、0.834、0.987、0.938、0.995、0.987、0.991、0.934，关系都非常密切 $（r>0.8，p<0.001）$ , 财政收入与城乡居民储蓄存款年底余额之间的关系最为密切 $（r＝0.995，p<0.001）$ 。
相关系数表明了各变量与财政收入之间的线性关系程度都相当高，由此可以认为所选取的九个因素都与财政收入存在着线性关系。
基于此，本例再进行线性回归分析，以便建立财政收入与每个因素之间的回归模型。本例以财政收入为因变量，所选取的九个指标为自变量。
回归分析
用R计算得回归模型如下：
$y=-143.2181-0.1139x_1-0.0044x_2+0.0304x_3+0.2292x_4-0.7819x_5 +0.1164x_6-1.4943x_7+0.3007x_8+2.5244x_9$
从表中可知，对财政收入影响显著的有 $x_4$ （全社会固定资产投资总额）， $x_6$ （全国城乡居民储蓄存款年底余额），而且从标准回归系数值看其作用也较大，这不太符合实际，所以对该模型还需进一步评价（用逐步回归或岭回归）。
利用该回归模型计算出的财政收入总量与实际财政收入的总量作出以下折线图。
从拟合数据和下面的折线图，可以看到利用建立的模型得出的预测数据与历史数据有相当好的拟和性，点和线几乎完全重合。
从所建立的影响因素模型运行结果来看：
（1）我国1979~1999的财政总收入的增长具有相当的惯性。
（2）财政收入对GDP的依存度为-0.1139，这反映出，改革开放以来，我国财政收入占GDP的比重出现逐年下滑趋势的客观事实。GDP分配格局变化的原因是复杂的，是国民经济运行中各种因素综合作用的结果。首先是经济体制转轨的必然结果，我国经济体制改变是以分配体制改革为突破口的，实践证明，分配体制的改革促进了经济体制的改革，促进了经济的快速增长。问题在于，一开始步子迈得大了一些，有序性差了一些，以后在较长时间内继续减税让利，政府也曾做过一些调整，但多数是临时性、非规范性措施，没有从根本方针上加以解决。我国财政收入占GDP的比重本来就偏低，出现负的贡献系数就更不应该，因此我们应采取措施提高财政收入占GDP的比重。
（3）财政收入对能源消费总量 $x_2$ 、实际利用外资总额 $x_5$ 出现负的依存度，可认为随着我国改革开放的深入发展，我们在能源消费、实际利用外资方面出现一些问题。
（4）财政收入对全社会固定资产投资总额 $x_4$ 、城乡居民储蓄存款年底余额 $x_6$ 的依存度分别为0.2292、0.1164，产出有赖于投入、固定资产投资有赖于储蓄存款，这一直都是相辅相成的在这里也体现了。
（5）财政收入对实际利用外资的依存度为-0.7819，利用外资是有利于经济的发展，但谁从中得到最大的利益，从这个数字看来显然不是政府，这可能与我国为了吸引外资而作出的优惠政策有关。
（6）财政收入对居民消费价格指数 $x_9$ 的依存度为2.5224，财政收入是一定量的货币收入，它是在一定的价格体系下形成的，又是按一定时点的现价计算的，所以价格变动必然影响财政收入的增减。价格变动对财政收入的影响，首先表现在价格总水平升降的影响。在是市场经济条件下，价格总水平一般呈上升趋势，一定范围内的上涨是正常现象。

我国直到1995年财政收入占GDP的比重都是下滑的，1993年中央采取整顿措施以后，财政收入占GDP的比重才相对稳定，到1996年开始略有回升。分配体制和分配模式是由经济体制决定的，过去计划经济体制下的统收统支体制，显然是和市场经济体制不对称的，经济体制转换带来分配体制的转换是必然的。
上述预测模型没有考虑到我国准备实施的“清费增税”重大制度改革。如果考虑将要实施的养路费、客运管理费改为燃油税，车辆购置附加费改为车辆购置税，及其他可能出台的费改税改革。
在进行未来财政收入预测时还应考虑到以下几个因素：
(1)我国经济已经具备步出低谷，出现复苏的条件。
(2)高科技产业发展使经济增长的科技含量提高，为财政收入增长提供了物资基础。
(3)随着经济的复苏，商品价格指数将摆脱长期负增长的局面，有望出现止跌回升。
(4)随着我国经济结构调整，税收制度发展，也将使我国财政结构发生变化。
在考虑到以上所有因素，我国的财政收入在预测模型的预测数量上还应有所增加。
该案例程序如下所示：

Case3=read.table("clipboard",header=T);Case3
cor(Case3) #相关分析
plot(Case3) #矩阵散点图
corr.test(Case3)
fm=lm(y~.,data=Case3) #线性回归
summary(fm)
y=Case3 $y yhat=fm$ fit
resid=fm$resid
cbind(y,yhat,resid,rerror=resid/yhat*100)
t=1978:1998
plot(t,y)
lines(t,yhat)

思考练习题

一、思考题（手工解答，上交作业本）

变量间统计关系和函数关系的本质区别是什么？
2．回归分析与相关分析的区别与联系是什么？
相关关系和回归关系各有哪些类型？
多元线性回归模型有哪些基本假定？为什么要求多元线性回归模型满足一些基本假设？当这些假定不满足时对回归模型有何影响？
为什么对多元回归系数还要进行标准化？
应用多元回归分析和相关分析时应注意哪些事项？
7．自变量选择对回归参数的估计有何影响？自变量选择对回归预测有何影响？
8．试述变量选择方法的基本思想和向前逐步回归和向后逐步回归的思想方法。向前前进法、向后后退法逐步回归各有哪些缺点？

二、练习题（计算机分析，网上交流或发电子邮件）

1．一家保险公司十分关心其总公司营业部加班的程度，决定认真调查一下现状。经过10周时间，收集了每周加班工作时间 $y$ （小时）的数据和签发的新保单数目 $x$ 。见下表。

周	1	2	3	4	5	6	7	8	9	10
x	825	215	1070	550	480	920	1350	325	670	1215
y	3.5	1	4	2	1	3	4.5	1.5	3	5

（1）绘制散点图，并以此判断 $x$ 与 $y$ 之间是否大致成线性关系；
（2）计算 $x$ 与 $y$ 的相关系数；
（3）用最小二乘估计法求出回归方程；
（4）求出随机误差 $\epsilon$ 的方差 $\sigma^2$ 的估计值；
（5）计算 $x$ 与 $y$ 的决定系数；
（6）对回归方程做方差分析；
（7）对回归方程作残差图并做一些分析；
（8）计算 $x_0=1000$ (张)需要的加班时间是多少？
2. 某家房地产公司的总裁想了解为什么公司中的某些分公司比其他分公司表现出色，他认为决定总年销售额(以百万元计)的关键因素是广告预算(以千元计)和销售代理的数目。为了分析这种情况，他抽取了8个分公司做为样本，搜集了下表所示的数据。
（1）准备一回归模型并解释各系数。
（2）用5％的显著水平，试确定每一解释变量与依赖变量间是否呈线性关系。
（3）计算相关系数和复相关系数。

分公司	广告预算(干元)	代理数	年销售额(百万元)
1	249	15	32
2	183	14	18
3	310	21	49
4	246	18	52
5	288	13	36
6	248	21	43
7	256	20	24
8	241	19	41

3．预测一广告预算为此学校毕业生的起始工资的变化是否能用学生的平均成绩点数(GPA)和毕业时的年龄来解释。下表所示为分配办公室得到的样本数据。
(1) 准备一回归模型并解释各系数。
(2) 确定学生的GPA和年龄是否能真正用来解释起始工资样本的变化。
(3) 预测某GPA为3.00，年龄为24岁的毕业生的起始工资。

GPA	年龄	起始工资
2.95	22	25500
3.40	23	28100
3.20	27	28200
3.10	25	25000
3.05	23	22700
2.75	28	22500
3.15	26	26000
2.75	26	23800

4．研究货运总量 $y$ (万吨)与工业总产值 $x_1$ （亿元）、农业总产值 $x_2$ （亿元）、居民非商品支出 $x_3$ (亿元)的关系。有关数据见下表。

编号	y	x1	x2	x3
1	160	70	35	1
2	260	75	40	2.4
3	210	65	40	2
4	265	74	42	3
5	240	72	38	1.2
6	220	68	45	1.5
7	275	78	42	4
8	160	66	36	2
9	275	70	44	3.2
10	250	65	42	3

（1）计算出 $y，x_1 ，x_2，x_3$ 的相关系数矩阵并绘制矩阵散点图；
（2）求 $y$ 关于 $x_1 ，x_2，x_3$ 的多元线性回归方程；
（3）对所求得的方程做拟合优度检验；
（4）对回归方程做显著性检验，对每一个回归系数做显著性检验；
（5）如果有的回归系数没通过显著性检验，将其剔除，重新建立回归方程，再做回归方程的显著性检验和回归系数的显著性检验；
（6）使用变量选择方法获得一个最优回归模型。

三、案例分析题

仿照书中的案例形式，从给定的题目出发，按内容提要、指标选取、数据搜集、计算机计算过程、结果分析与评价等方面进行案例分析。
1. 未来我国用电量的多因素分析。
2. 未来若干年我国手机供应量的多元预测分析。
3. 未来若干年我国计算机供应量的多元预测分析。
4. 应用回归模型研究股市的变化规律
5. 居民消费价格指数逐步回归模型。
6. 我国彩电（液晶）供应量的多因素分析。

分公司	广告预算(干元)	代理数	年销售额(百万元)
1	249	15	32
2	183	14	18
3	310	21	49
4	246	18	52
5	288	13	36
6	248	21	43
7	256	20	24
8	241	19	41

编号	y	x1	x2	x3
1	160	70	35	1
2	260	75	40	2.4
3	210	65	40	2
4	265	74	42	3
5	240	72	38	1.2
6	220	68	45	1.5
7	275	78	42	4
8	160	66	36	2
9	275	70	44	3.2
10	250	65	42	3

分公司	广告预算(干元)	代理数	年销售额(百万元)
1	249	15	32
2	183	14	18
3	310	21	49
4	246	18	52
5	288	13	36
6	248	21	43
7	256	20	24
8	241	19	41

编号	y	x1	x2	x3
1	160	70	35	1
2	260	75	40	2.4
3	210	65	40	2
4	265	74	42	3
5	240	72	38	1.2
6	220	68	45	1.5
7	275	78	42	4
8	160	66	36	2
9	275	70	44	3.2
10	250	65	42	3

第4章：多元相关与回归分析及R使用

4.1 变量之间的关系分析

4.1.1 简单相关分析的R计算

一、两变量线性相关分析

1. 两变量线性相关系数的计算

2.相关系数的假设检验

4.1.2 简单线性回归分析回顾

一、一元线性回归模型的描述：

二、一元线性回归模型的参数估计

三、建立直线回归方程的步骤

四、回归系数的假设检验

1. 方差分析

2.t检验

4.2 多元线性回归分析

4.2.1多元线性回归模型的建立

一、多元线性回归模型的一般形式

二、线性回归模型的基本假设

三、多元回归参数的最小二乘估计

四、标准化偏回归系数

4.2.2多元线性回归模型的检验

1.回归方程的假设检验

2. 回归系数的假设检验

4.3 多元相关分析

4.3.1多元线性相关

4.3.2复相关分析

1. 复相关系数的计算

2. 决定系数

4.4 回归变量的选择方法

4.4.1 变量选择准则

一、全局择优法：根据一些准则（criterion）建立“最优”回归模型。

1.RSS和R^2准则变量的选取:

2.RSS和R^2准则的优点：

3.RSS和R^2准则的缺点：

二、变量选择的常用准则

1. 平均残差平方和最小准则

2. 误差均方根MSE最小准则

3. 校正复相关系数平方（Adjusted R^2）准则：

4.C_p准则

5. AIC准则BIC准则

三、全局择优法的局限性

4.4.2逐步回归分析

一、逐步回归分析的概念

二、逐步变量选择的方法

1. 向前引入法（Forward）

2. 向后剔除法（Backward）

3.逐步筛选法（Stepwise）

案例分析：财政收入的相关与回归分析

思考练习题

一、思考题（手工解答，上交作业本）

二、练习题（计算机分析，网上交流或发电子邮件）

三、案例分析题

内容目录

1.RSS和 $R^2$ 准则变量的选取:

2.RSS和 $R^2$ 准则的优点：

3.RSS和 $R^2$ 准则的缺点：

2. 误差均方根 $MSE$ 最小准则

3. 校正复相关系数平方（Adjusted $R^2$ ）准则：

4. $C_p$ 准则

分公司	广告预算(干元)	代理数	年销售额(百万元)
1	249	15	32
2	183	14	18
3	310	21	49
4	246	18	52
5	288	13	36
6	248	21	43
7	256	20	24
8	241	19	41

编号	y	x1	x2	x3
1	160	70	35	1
2	260	75	40	2.4
3	210	65	40	2
4	265	74	42	3
5	240	72	38	1.2
6	220	68	45	1.5
7	275	78	42	4
8	160	66	36	2
9	275	70	44	3.2
10	250	65	42	3