第二十七讲 一元线性回归
概率论与数理统计
讲义
NUDT
2023SP
27.1 回归的概念
例 某型战机降落时,机载仪器记录的前 20 秒滑行时间 (秒)与滑行距离 (米)的数据如下
- 由牛顿运动学定律可推出飞机降落时的滑行时间 (秒)与滑行距离 (米)应该满足关系:
- 以上数据真的满足关系 吗?
变量的非确定性关系
- 理想状态下, 和 之间存在 确定性关系
- 但在现实情况下,观测数据总是存在一定的偏差
- 导致偏差的原因包括(但不限于):测量误差、风的干扰、人为因素
- 非确定的模型:
- 随机变量 表示各种随机因素导致的偏差
- 通常假设:,
相关关系与回归分析
- 相关关系(correlativity):变量之间存在的
相互依存
但由于随机因素干扰
而导致的非确定性关系
- 一般形式:,
- 利用观测的得到的数据,对系统输出 与输入 之间的依存关系 以及随机误差 进行统计推断,称为 回归分析 (Regression Analysis).
- 一元线性回归 特指回归分析中 为一元线性函数的情形
回归
- 一般认为,数学上的回归一词是英国人类学家和气象学家 Galton 引入的.
- Galton 发现:特别高的父母普遍有比他们矮的孩子,而特别矮的父母的孩子通常比父母要高.
- 他把这种现象称为 “遗传身高向平庸的回归”,这个概念现在变成了数学上更广义的 “向均值回归” (regression toward the mean).
- Galton 利用图表与数据点发现了父母身高与孩子身高之间的关联,并最早把这种关系的强度用 “
相关系数
” 来刻画.
统计分析的诞生
- Karl Pearson 在 Galton 的基础上完善了相关性这一概念,并于 1911 年在伦敦大学学院(UCL)创立了世界上第一个大学统计系
- "
统计分析开辟了一个全新的领域,它让我们在无法完全了解确切原因的情况下仍然可以利用有效的信息
"
- Galton was an innovator in the field of statistics, the first to recognize the “wisdom of the crowd.”
27.2 一元线性回归
例 为研究某化学反应过程中,温度 (℃) 对产品得率 (%) 的影响,测得数据如下:
试研究 与 之间的关系.
观察与推测
- 尽管存在一定的偏差,但不难看出所得到的数据大致分布在一条直线上
- 由此,推测 与 之间存在较强的
线性依存关系
- 建立回归模型
- 问题一:如何求得 ,?
- 问题二: 具有哪些统计特性?
一元线性回归模型
因变量
:可观测的指标;自变量
:与 相关的因素(因子)
- 回归系数 :能够反映 与 的关系的最适当的参数
- 随机误差 :无法测量的随机扰动
- : 中不包含系统误差
- :方差存在,意味着误差的波动幅度有限
一元线性回归模型研究的问题
- 回归系数 及方差 的点估计
- 线性模型的假设是否符合实际?
- 怎样将线性模型用于预测和控制?
- 可否/如何将非线性回归问题转化为线性回归问题来处理?
27.3 回归中的点估计
取 的不全相同的值 进行 次独立试验,得到 的观测值为 (称为试验的样本
)
回归系数的最小二乘估计
若 , 满足
则称 , 分别是 , 的 最小二乘估计(Least Square Estimate, LSE).
LSE 的几何意义
LSE 的求解
正规方程组的解
- 不全相同,故
- 由此可知正规方程组有唯一解
- 称 为 关于 的 经验回归方程(经验方程). 对应的直线称为 回归直线 或 拟合直线.
简写符号
例:化学实验得率与温度的关系
- 计算各项数据:
- 进而得到 ,
- 于是 ,
- 回归方程:.
LSE 的性质
性质1 、 是样本的线性函数.
性质2 、 分别是 、 的无偏估计,即:
证明: 、 是样本的线性函数.
证明:
性质3 .
性质4 ,.
- 对 、 的估计效果与 相关
- 设计试验的原则
- 试验次数 不能太小
- 可以取正负值时,尽量使得
- 约分散越好,即 越大越好
证明: .
证明:
证明:
27.4 方差的无偏估计
残差平方和(Residual Sum of Squares)
- 反映了拟合值与观察值整体的偏差大小
- 性质1
- 性质2
- 推论 是 的无偏估计,称 为 剩余方差.
证明:
证明:
例:化学实验得率与温度的关系
27.4 正态线性模型
- 显然,
- 似然函数
- 在正态线性模型下,、 的 LSE 就是 MLE
正态线性模型的性质
- 、 的 LSE 就是 MLE
- 的 MLE 和无偏估计分别是 和
- ,
- , , 相互独立
小结
- 一元线性回归模型
回归参数的点估计及其性质
随机误差的方差的点估计
一元正态线性回归模型