8.1 线性回归分析
高等工程数学
讲义
2024AU
8.1.1 回归分析的概念
- 研究变量与变量之间关系的一种统计方法.
- 常见的两类关系:
- 确定性关系 变量之间的数量关系完全确定,可用形如 的函数加以描述.
- 相关关系 变量之间存在联系,但无法用确定的函数表示.
- 例如:身高和体重的关系、作物产量和播种量的关系、智商和营养水平的关系.
- 变量间的相关关系不能用完全确定的函数形式表示,但
在平均意义下
可以有一定的定量关系表达式,寻找这种定量关系表达式就是 回归分析(Regression Analysis) 的主要任务.
回归分析的数学描述
- 本质上就是用某种指定类型的函数来
拟合
所得到的的数据,以尽可能利用统计的方法消除
不完备的观察或不确定因素的影响.
数学描述
:
- 设 为因变量, 为自变量.
- 找到 回归函数 .
- 使得 .
已知
:观测数据,以及干扰因素的大致统计规律.
目的
:发现数据背后的支配规律,以对未发生的情况加以预测或控制.
线性回归(Linear Regression)
基本假设
:设 与 之间存在线性关系,即
噪声假设
:
- ,即:其他因素对均值的影响
总体上
可以忽略不计.
- :即:其他因素可能导致的数据波动范围是确定的.
- 涉及多个自变量和一个因变量的线性回归问题称为 多元线性回归 (MLR, Multiple linear regression)
多元线性回归模型
记
- MLR 可表示为
- 该模型称为 线性回归模型(简称 回归模型),记为 .
- 其中, 称为 设计矩阵 (Design Matrix), 称为 回归系数 (Regression Coefficient)
相关的统计推断问题
对模型中的参数进行估计
:
假设检验
- 与 是否真的具有线性关系 ?
- 单个自变量 对 的影响是否显著 ?
- 可否/如何进行
预测和控制
?
- 如何针对特定的要求
对模型进行优化
?
8.1.2 最小二乘估计
若统计量 满足
则称 是 的 最小二乘估计(Least Squares Estimation, LSE)
最小二乘估计的存在唯一性
定理 若 MLR 的设计矩阵 列满秩,则 有唯一的最小二乘估计 ,其中 .
注:
由矩阵 列满秩,可以推出 可逆.
- 称方程 为 经验回归方程 或 回归方程.
- 方程 称为 正规方程组 (Normal Equations).
- 是 的最小二乘估计,当且仅当 是正规方程组的解.
证明:
1、先证明 是 MLR 的最小二乘估计.
2、再证明最小二乘估计具有唯一性.
- 设 也是 MLR 的最小二乘估计,以下证明 .
- 因为 和 均为最小二乘估计,故 .
- 显然 ,故由勾股定理
- 于是可知 ,也即 .
- 因为 列满秩,方程组 只有零解,故 .
例:化工研究
某化工长研究硝化得率 ()与硝化温度 (单位:℃),硝化浓度 ()之间的相关关系,进行了 次试验,得到数据如下. 假设 与 具有线性关系,试求其回归方程.
解:
设 , 且 .
- 记 .
- ,.
- 回归系数的最小二乘解 .
- 所求回归方程 .
误差分析
- 记 , 一般称为 拟合值(Fitting value)、估计(值) (Estimation)或 预测(值)(Prediction).
- 称 为 残差向量 (或 剩余向量,Residual Vector).
- 记 ,则 ,.
- 可以验证:
- 都是 对称投影矩阵 (或对称幂等阵).
- .
- 从几何上看,.
最小二乘估计的性质
设 MLR 中,参数 的 LSE 为
附注:协方差阵的性质
设 均为 维随机变量
附注:协方差阵的性质 (续)
记 ,则
- 对任意 阶矩阵 ,.
- 是半正定阵.
证明:
对任意非零向量 ,
- 为一维随机变量,其方差 .
- 于是 .
性质2 残差向量 满足
- .
- .
.
性质3 记 ,则 .
证明:
- 称为 残差平方和 (Residual Sum of Squares).
- 称为 剩余方差 (Residual Variance).
- 以上性质说明, 是 的无偏估计.
性质4 对任意 , 是 的 最小方差线性无偏估计(Best Linear Unbiased Estimator,BLUE).
证明:
是 的线性函数,
- 且 ,
- 故 是 的线性无偏估计.
- 以下证明 的方差最小性. 即对任意 ,若 ,则必有 .
- 注意到 ,
- 上式对任意的 成立,故必有 .
正态线性回归模型
线性回归模型 中,若 ,则称该模型是一个 正态线性回归模型.
- 性质5 在正态线性回归模型 中,
- 的 最大似然估计就是其最小二乘估计.
- 与 相互独立,进而 与 相互独立.
- .
- .
- .
正态 MLR 的 MLE 就是 LSE
证明:
- .
- 似然函数 .
- 似然函数取最大值,当且仅当 取最小值.
- 从而可知 的 MLE 就是 LSE.
例 设有正态线性模型
其中 是可观测的随机变量; 独立同分布,均服从 . 求 的 MLE,并分析这三个估计量是否相互独立.
解
- 原正态线性模型可记为
- 的 MLE 就是它们的 LSE.
- 注意到 , 其中 .
- 从而可知 .
- 故 相互无关,进而可知它们也相互独立.
8.1.3 MLR 的假设检验
MLR 的基本假设:
,其中 是线性函数
分析:
与 之间没有线性关系,当且仅当:.
- 检验假设:.
- 拒绝 ,意味着线性关系显著,即回归方程与实际数据的拟合效果较好.
- 接受 ,意味着线性关系不够显著,模型不可用.
分析:
- 观测值:,拟合值:.
- 记 .
- 总离差平方和 (Sum of Squares of Deviations): 反映观测值的离散程度.
- 残差平方和:反映拟合的效果.
- 回归平方和 (Regression Sum of Square):反映拟合值的离散程度.
引理
证明:
记 . 则由 可知,.
-
- 上式说明 .
- 故由勾股定理:
- 即 .
回归平方和的统计特性
定理 在正态线性回归模型 中
- .
- 当原假设 成立时, 且 和 相互独立.
证明:
先证 .
- .
- .
- 令 ,则 ,进而 .
- 为幂等阵,故特征值必为 或 .
- .
再证当原假设 成立时,
- 令 ,则 . 进而 .
- 而 .
- 故存在正交矩阵 ,使得
- 令 ,则 .
最后证明 和 相互独立.
- 记
-
- , 均服从正态分布,故可知二者相互独立.
- 进而, 与 也相互独立.
推论 在正态线性回归模型 中,假设检验
的拒绝域是
提示:
不成立时,统计量 有偏大于 的趋势.
- 无论 是否成立, 都是 的无偏估计.
方差分析表
- 即使拒绝了 ,也不能说明回归模型就一定能适用于实际,因为该回归模型不一定包含了对 有影响的全部因子.
回归系数的显著性检验
定理 在 MLR 中,对某个 ,检验假设
的拒绝域是 ,其中 是 的第 个对角元.
- 注:通过对回归系数的显著性检验,可以剔除对 影响不显著的自变量,有时候不仅能提高计算效率,也会带来估计精度的提升.
线性回归在应用中的几个问题
回归方程的适用范围
- 回归方程通常对于 的范围有所限定,超出了原来的变化区间, 之间可能就不再是线性关系,回归方程因此也可能不再适用了.
- 应用中的其他设定应该与建立回归方程时没有显著差异,试验(应用场景)设定的变化可能导致不同因素的权重发生改变.
回归方程通常不可逆转使用
- 数学上 , 但作为回归方程二者一般不是相互对应的.
- 选取自变量时,应尽可能
避免同时引入相互高度线性相关的因素
.
可转化为线性回归的模型
例 设有一个自变量 和 一个因变量 ,从某种理论考虑或数据启示,认为回归模型具有指数形式
提示:
当 已知时,通过变换 ,可以将原模型下对 的观测数据转换为新的数据 ,从而得到一个线性回归模型.
例 设有一个自变量 和 一个因变量 ,经验判断认为回归函数为 的多项式
提示:
定义 ,以上模型可以转化为一个多元线性回归模型,.
线性模型的复共线性
- ,其中 是 的特征值.
- 该式说明,如果存在某个很小的特征值,则对 的估计误差就很大.
提示:
不妨设 ,设其对应的单位特征向量为 .
- .
- 也即 ,这说明 的列向量近似线性相关(称为 复共线性, Multicollinearity).
- 设计矩阵 的复共线性是导致最小二乘估计效果变差的主要原因.
主成分估计
- 对设计矩阵 进行奇异值分解 .
- 设 中有 个接近于 的奇异值(小于某个阈值 ).
- 定义 .
- 称 为 的 主成分估计.
- 显然 ,故主成分估计是 的有偏估计.
小结
- 多元线性回归模型
- 最小二乘估计
- 相关的假设检验