7.2 非参数假设检验
高等工程数学
讲义
2024AU
- 参数假设检验:
- 是来自总体 的样本.
- 总体分布 的解析表达式已知,但参数 未知.
- 通过矩估计、最大似然估计、区间估计以及参数假设检验等方法对 的取值进行统计推断.
新的问题:
若总体分布 的解析表达式未知,
- 有哪些可以进行的统计推断?
- 如何对总体 进行统计推断?
常见的非参数假设检验
分布拟合检验:
检验某个总体是否服从猜想的分布
独立性检验:
检验两个总体是否相互独立
- 正态性检验:检验某个总体是否是正态的
- 游程检验:检验二项分布中取值的连贯性
- 符号检验:检验两个总体是否显著不同
- 秩和检验:检验两个总体是否显著不同
7.2.1 拟合优度检验
设 是来自总体 的简单随机样本,其中 未知,要检验假设
其中 是已知的.
注:
若分布 中含有未知参数,一般先利用最大似然估计给出参数的估计值.
函数拟合(Function Fitting)
从函数 中采样得到 个点
找到某个函数 ,使之经过(或靠近)这些点. 在一定条件下, 可以作为 的替代使用.
- 如何 (按什么样的方法) 构造 ?
- 和 的一致性 (近似程度) 如何度量?
- 在什么条件下,可以用 替代 ?
分布拟合检验问题的一般步骤
- 数据
频率表
:划分区间,统计数字出现的频率,列表表示.
- 根据频率表,画出
直方图
.
- 结合经验或数据来源特征,猜测
可能的分布
,给出待检验的假设.
- 注:若分布中含有未知参数,先利用
最大似然估计
给出参数的估计值.
- 进行
拟合优度检验
.
步骤1:从观测值到频率表
样本观测值
频率表
步骤2:从频率表到直方图
频率表

步骤3:从直方图到经验概率函数
- 推测 ,.
- 推测 ,.

步骤4:分布拟合检验
例 设 是来自离散总体 的简单随机样本,总体 的分布律未知( 未知),检验假设
其中 均已知,且 .
分析
- 当原假设 成立时,
- 因此,若 成立,则所有的 都应偏小,或者说 应较小.
- 反之,若 较大,则有理由认为 不成立.
- 由以上分析得到拒绝域的形式:
- 为了便于计算,上述条件一般改写为
- 常数 由 I 类风险 确定,满足:对给定的 ,
Pearson 定理
设 是样本 中取值等于 的频数 ,统计量
称为 Pearson 统计量.
- 定理 在 成立的前提下,当 时,Pearson 统计量的极限分布是 ,其中 为相关的待估参数个数.
注: 时的证明:
- 已知
- 当 成立时,
- 由中心极限定理, 当 充分大时, 近似服从 , 进而可知 近似服从 .
- Pearson 定理所定义的检验方法称为 Pearson 拟合优度检验 (Goodness-of-Fit Test)
Pearson 拟合优度检验
设 未知, 均已知,,且 .
假设检验问题
的拒绝域为
例:Mendel 的豌豆
- 在 19 世纪,Mendel 按颜色与形状把豌豆分为四类:黄圆、绿圆、黄皱和绿皱, 并根据遗传学原理判断这四类的比例应为 .
- 在一次豌豆实验中收获了 个豌豆,其中这四类豌豆的个数分别为 .
- 该数据是否与 Mendel 提出的比例吻合?
分析
- 检验假设:
- .
- .
- 若取显著水平 ,则 .
- 故没有理由拒绝 .
结论:
抽样数据与 Mendel 的结论吻合得较好.
例:抽奖真的公平吗?
- 摇奖方法通常采用将标有 到 的球注入摇奖机,每次随机摇出一个球,然后放回再进行下一次摇,把摇出的球上的数字组合成对奖号码.
- 但通常总有人对摇奖结果产生质疑.
- 现对摇奖的 13 期中奖号码进行统计,得到各数字出现的频数如下.
- 试从统计的角度分析,摇奖结果是否公平?
解:
设 表示每次摇号摇出的号码.
- 检验假设:.
- 检验统计量:
- 拒绝域:
- 计算并查表得:
结论:
根据所给数据判断应拒绝原假设 ,即:认为摇奖过程存在一定的问题.
注:
- 在实际使用时,当样本容量 时,通常就认为 .
- Pearson 统计量的常用计算公式:
- 对于连续总体,一般需先进行离散化处理,即将变量的取值范围分割成若干区间,然后统计数据落在其中的频数,转换为离散型的情况进行检验.
例:地震发生的规律
- 自 1965 年 1 月 1 日至 1971 年 2 月 9 日共 2231 天中, 全世界记录到里氏震级 4 级和 4 级以上地震共 162 次,统计如下 ( 表示相继两次地震间隔天数, 表示出现的频数),
- 试在显著性水平 之下,检验相继两次地震之间的间隔是否服从指数分布.
解:
设 的密度函数为 .
- 检验假设:
- 由于参数 未知,故先使用最大似然估计求得其估计值 .
- 若 为真, 的分布函数估计为
- 为连续型随机变量,将其取值分为互不重叠的子区间 ,,计算 取值在每个区间的理论概率 .
拟合检验计算表
- 本例中 ,计算可得 .
- 查表
- 故在显著性水平 下,应接受 .
结论:
在显著性水平 下,由样本推断,两次地震之间的间隔服从指数分布.
7.2.2 独立性检验
- 检验两个指标(总体、随机变量)之间是否存在关联?
- 例如:
- 地下水位的变化是否与地震有关?
- 慢性气管炎是否与吸烟有关?
- 高血压是否与食盐摄入过多有关?
- 城市家庭养猫是否与有灭鼠效果?
问题描述
设 是来自二维总体 , 的分布函数为 , 的边缘分布函数 均未知. 检验假设
思路:
- 将 的取值划分为 个区间
- 将 的取值划分为 个区间
- 统计样本落在不同区域内的数量 .
- 将计数值转换为频数

频率表
待检验的假设
拒绝域的形式
- 的最大似然估计
- 成立时,对 ,总有 .
- 即 ,因此 都应较小,进而 应较小.
- 反之,当 较大时,有理由认为原假设不成立.
- 等效的做法,当 较大时,考虑拒绝 .
独立性检验
定理 对于独立性检验问题
当原假设成立时,统计量 的近似分布为 .
注: 关于 的分布和自由度.
- 独立性检验可以视为一种特殊的分布拟合检验,因此仍使用 Pearson 统计量作为检验统计量.
- 待检验的假设共有 个,用于检验的待估参数 共有 个.
- 需要满足归一化条件 ,故实际上独立的参数共有 个.
- 综上, 成立时,Pearson 统计量的自由度为 .
Pearson 统计量的计算公式
例:儿童智商与营养水平的关系
为研究儿童智力发展与营养的关系,某研究机构调查了 1436 名儿童,得到数据如下, 试在显著性水平 之下,判断智力发展与营养水平有无关系.
解:
- 用 表示营养状况,它有两个水平: 表示营养良好, 表示营养不良.
- 表示儿童智商,它有四个水平,,分别表示表中的四种情况.
- 假设营养状况与智商无关联,即 与 相互独立.
- 检验假设:
- 在 成立的前提下,可以计算出各参数的最大似然估计:
- 然后进一步算出各 .
- 计算得到 .
结论:
拒绝原假设,认为营养状况对智商有影响.
例:抽烟与患慢性支气管炎的关系
为了研究患慢性气管炎与吸烟有无关系,调查了 名 岁以上的人,统计数据如下表:
试判断患慢性气管炎是否与吸烟有关?
解:
由题意,检验假设
- 拒绝域为
- 计算得到
结论:
拒绝原假设,认为患慢性气管炎与吸烟有关.
小结
- 非参数假设检验
- 前提:分布类型或分布间的关系不确定
- 拟合优度检验
- Pearson 统计量
Pearson 定理的证明思路
- 设 服从参数为 和 的多项分布,也即:,且对任意满足 的非负整数 ,.
- 给定 ,需要检验 ,检验统计量 .
- 原假设成立时, 可视为 个服从参数 和 的多项分布随机变量 的和,即:, 的分量中只有一个等于 ,其余均为 .
- 显然 ,故 , .
- 可以验证 .
- 故
- 由中心极限定理 的渐进分布为 .
- 进而 的渐进分布为 .
- 令 ,记 .
- 于是 的渐进分布为 .
- 进一步地,可以验证 是秩为 的对称幂等阵.
- 故可通过正交变换将 各分量的平方和 化为 个相互独立的近似标准正态随机向量的平方和.
- 进而可知 .
注:
- 记 ,可以验证
- .
- 的与特征值 对应的特征向量为 .
- 对于任意与 正交的向量 ,总有 ,即 是与特征值 对应的特征向量.