7.1 参数假设检验
高等工程数学
讲义
2024AU
第七章 假设检验
假设检验关注的问题
提出某种假设,然后利用统计数据判断其真伪.
- 需要回答的问题:
如何(定量地)表达假设?
真伪的标准是什么?
用什么样的方法进行判定?
如何理解检验的结果?
两类假设检验问题
- 参数假设检验
- 总体分布形式 已知,对总体分布中的参数 进行检验.
- 例如:次品率(
均值检验
)、质量对比(方差检验
)、...
- 非参数假设检验
- 总体的分布未知,对总体的分布或总体间的关系进行检验.
- 例如:判断总体的分布(
拟合优度检验
)、判断两随机变量是否独立(独立性检验
)、...
7.1 参数假设检验
7.1.1 基本概念
例(产品质量检验) 某车间用一台自动包装机装化肥,每袋的标称重量规定为 kg. 某日开工后随机抽检 袋产品,测得净重如下(单位:kg)
设每袋化肥的实际重量服从正态分布,标准差为 kg,试问该日包装机工作是否正常?
统计推断的出发点
- 理论上讲,只有完整地了解了整个总体之后,才能对其有关特性做出准确无误的判断,但这在实际中常常是不可能的.
- 很多情况下,只能根据样本进行 推断.
由于样本未必能够严格反映总体的完整特征,最终推理得到的结论也可能是错误的!
- 因此,统计推断的结果,只能说是在一定的概率下正确.
例(产品质量检验) 某车间用一台自动包装机装化肥,每袋的标称重量规定为 kg. 某日开工后随机抽检 袋产品,测得净重如下(单位:kg)
设每袋化肥的实际重量服从正态分布,标准差为 kg,试问该日包装机工作是否正常?
分析:
样本均值 .
- 从以上的数据来看,均值(平均重量)没有达标.
疑问:
考虑到设备和测量可能存在的误差,这样的结果是否一定不可接受?
提出假设检验问题
- 已知条件:每袋化肥重量的分布 ,理论上,包装机工作正常,当且仅当 .
- 待检验的假设
- 原假设(零假设,Null Hypothesis)::,即:包装机工作正常
- 备择假设(Alternative Hypothesis)::,即:包装机工作不正常
- 可能的结论
- 拒绝 ,认为包装机工作不正常.
- 接受 ,认为包装机工作正常.
假设检验的思想出发点
小概率事件在一次试验中是不会发生的.
统计推断的目的应该是证伪
,即证明备择假设成立.
- “接受”或“拒绝”一个假设,并不是要从逻辑或理论上“证明”或“证否”该命题,而只是基于给定的样本对该命题给出
一种态度或处理行为上的判断.
- 由于样本是随机的,因此作出的判断可能错误,
假设检验的方法应该将犯错误的概率控制在可接受的范围内.
错误与风险

- I 类错误 (False Negative) 为真,却拒绝 ,
- II 类错误 (False Positive) 为假,却接受
产品质量检验问题的分析
提出假设:
.
分析:
因为 的无偏估计是 ,也即 .
- 若 成立, 应该较小. 反之,若 较大,则有理由认为 不成立
检验规则:
确定某个阈值
问题:
如何确定 ?
假设检验原则
检验原则一:
不轻易拒绝原假设,除非有极其充足的理由.
- 即:犯 I 类错误的概率要足够小.
- 对给定的 (显著性水平, Level of Significance),
- 使得:
检验原则二:
在满足原则一的条件下,使 II 类风险尽可能小.
产品质量检验
分析:
根据题设,需要检验假设
- 总体均值 的无偏估计是 .
- 若 成立,则 应较小.
- 若 偏大,则有理由认为 不成立.
- 根据假设检验原则一
成立时,,故
任取 即可满足假设检验原则一.
解:
检验假设
拒绝域(即拒绝的条件)为
取 ,计算得到: , .
因为 ,即 ,故应拒绝 ,也即认为今天的设备运转不正常.
设备真的不正常吗?
- 准确的结论:认为设备运行不正常而实际设备运行正常的可能性不超过 .
- 不拒绝原假设可能有两种含义:
- 原假设的确是正确的,应当接受.
- 样本提供的信息不足以拒绝原假设,只好保留原假设.
- 从这个意义上说,假设检验的基本原则可以理解为:优先保护(不随意否定)原假设.
司法中的“无罪推定原则” (Presumption of Innocence)
- “未经人民法院依法判决,对任何人都不得确定有罪”
- 控方需要列举证据证明嫌疑人有罪.
- 如果证据确凿,则推翻无罪假设,嫌疑人被判有罪.
- 如果证据不足,则维持无罪判定,宣布嫌疑人无罪.
关在监狱中的人基本上都是有罪的.
监狱外面的人并不全是好人!
假设检验的基本步骤
- 提出待检验的假设:原假设 vs 备择假设 .
- 分析得到拒绝域的形式.
- 选择 检验统计量,根据显著性水平确定拒绝域.
- 根据样本数据进行计算,作出判断.
注:1. 待检验的假设
- 其中 ,但不要求一定有 .
- 如果 (或 ) 只含有一个点,则对应假设称为 简单假设,否则称为 复合假设.
- 注意:
- 原假设中须包含等号.
- 通常情况下,应该将不应该/不希望轻易加以否定的假设作为原假设.
- 在保护倾向不明的情况下,一般选择与事实相反的命题作为原假设.
单边假设与双边假设
- 设原假设为 ,可能的备择假设通常有三种
- vs 称为 双侧(边)假设.
- vs 或 vs 称为 单侧(边)假设.
注:2. 拒绝域
- 假设检验等价于把样本空间划分为两个不相交的部分 和 ,其中 称为 拒绝域 (Rejection Region).
- 当样本 时,则拒绝 ,否则接受 .
- 拒绝域确定了,检验的判断准则也就确定了.
- 假设检验就是要证伪(尝试证明备择假设),因此拒绝域的形式完全由备择假设决定.
注:3. 检验统计量
- 结合总体信息,选择合适的检验统计量.
- 根据对 I 类风险的要求,由检验统计量的分布确定分位点.
- 检验统计量不具有唯一性,拒绝域也不具有唯一性.
注:4. 检验的结论
- 不同的显著性水平可能意味着不同的检验结论.
- 注意:交换原假设和备择假设可能导致判断的结论相反.
例:交换原假设和备择假设(1)
某工厂规定特定产品的质量不能低于 kg,否则视为不合格. 已知该产品的质量服从 . 现抽检 100 件样品,测得样本均值 ,试判断该批产品是否达到质量标准.
例:交换原假设和备择假设(2)
某工厂规定特定产品的质量不能低于 kg,否则视为不合格. 已知该产品的质量服从 . 现抽检 100 件样品,测得样本均值 ,试判断该批产品是否达到质量标准.
检验的 p 值
例 某厂生产的合金强度服从正态分布 ,其中的设计值为不低于 (Pa). 为保证质量,该厂每天都要对生产情况做例行检查,以判断生产是否正常进行. 某天从生产的产品中随机抽取 块合金,测得其强度值均值为 (Pa),问当日生产是否正常?
不同显著性水平之下的检验结论
- 检验的 p 值 是指在一个假设检验问题中,利用样本观测值能够做出拒绝原假设的最小的显著性水平. 以上例子中,.
p 值与检验的显著性
- 值最初由 R. A. Fisher 提出和使用,常常用来判定假设检验的结果.
- 值也可以理解为:当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率
- 如果 值很小,说明在原假设成立的前提下,样本对应的情况发生的概率很小,这是应该考虑拒绝原假设.
- 值越小,拒绝原假设的理由越充分,或者说,结果越显著
置信区间与假设检验的关系
- 设 是来自总体 的样本, 是总体参数 的取值范围.
- 设 是参数 的一个置信水平为 的置信区间. 也即:对任意 ,有
- 考虑显著性为 的双边检验:
- 注意到
- 故拒绝域可以取为
利用置信区间进行假设检验
对于显著性为 的双边检验:
- 先求出 的置信水平为 的置信区间 .
判断 是否落在 中.若 ,则接受 . 反之,拒绝 .
- 类似地,可以通过求以上假设检验问题的拒绝域来求得 的 置信区间.
7.1.2 正态参数总体假设检验
假设检验问题的进一步讨论
回顾:设总体 ,其中 已知,检验假设
进一步的讨论
设总体 ,其中 已知,检验假设
再进一步
设总体 ,其中 已知,检验假设
为什么使用相同的检验统计量?
- 由 可得 .
- 进而可得对任意 ,总有 .
- 因为 ,故取 即可满足 .
- 进而 .
小结
- 对于同样的备择假设(),无论原假设是什么(,),都有相同的拒绝域.
当原假设不是简单假设时,使用的检验统计量与简单假设时相同.
单正态总体均值的检验(方差未知)
设 是来自总体 的简单随机样本, 均未知,在显著水平 下,检验假设
单正态总体均值的单边检验(方差未知)
设 是来自总体 的简单随机样本, 均未知, 已知,在显著水平 下,检验假设
单正态总体均值的检验:检验统计量与拒绝域
例:污水处理问题
某地环保部门规定,废水处理后其中某有毒物质的平均浓度不得超过 mg/l. 现从某废水处理厂随机抽取了 份样本,测得样本均值 mg/l ,样本标准差 mg/l . 假设废水处理后有毒物质的浓度服从正态分布. 试在显著性水平 下,分析该厂处理后的水是否达标?
解
- 由已知,废水处理后有毒物质的浓度 .
- 检验假设:
- 检验统计量:.
- 拒绝域为:.
- 查表计算得到 .
- 接受原假设,认为该废水处理厂处理的废水没有达标.
单正态总体方差的检验:检验统计量与拒绝域
例:产品质量检验
某切割机若正常工作,切割出的金属棒平均长度为 cm, 标准差不超过 cm. 现从一批产品中随机抽取 段,测量得到数据如下:
假设金属棒的长度 服从正态分布. 在显著性水平 下,问该切割机是否工作正常?
解
- 记切割的金属棒的长度 ,以下分别对 和 进行检验.
- 检验假设:
- 检验统计量: .
- 拒绝域:.
- 计算得到:.
- 拒绝原假设,即认为金属棒的加工精度达到了要求.
- 检验假设:.
- 检验统计量:.
- 拒绝域:.
- 计算得到:.
- 接受原假设,即认为切割的金属棒长度的平均长度是 cm.
综上,金属棒的长度均值和方差都符合要求,故认为切割机工作正常.
双正态总体均值差的假设检验
设 是来自总体 的简单随机样本, 是来自总体 的简单随机样本, 其中 均未知,在显著水平 下,检验假设
双正态总体均值差的检验:检验统计量与拒绝域
例:NBA 球队胜率比较
右表是马刺队和湖人队历年常规赛成绩,问马刺队的胜率是否明显高于湖人队?()
分析
- 设马刺、湖人两队的常规赛胜率分别为 .
- 设 .
- 检验假设 .
- 计算得到
- 拒绝原假设,即认为马刺队的常规赛胜率明显高于湖人队.
注: 以上解答过程中存在的问题
- 二者胜率的方差相等吗?
- 二者胜率服从正态分布吗?
- 二者的胜率相互独立吗?
例 设 是来自总体 的简单随机样本, 是来自总体 的简单随机样本, 其中 均未知,在显著水平 下,检验假设
回到前面的例子,比较两队胜率的稳定性
- 记马刺队和湖人队的常规赛胜率分别为 ,
并作如下假设
:
- .
- 相互独立.
- 检验假设:.
- 计算得到
- 拒绝原假设,即认为马刺队的常规赛胜率更稳定.
双正态总体方差比的检验:检验统计量与拒绝域
7.1.3 非正态总体大样本参数检验
- 在正态总体参数检验中,由于检验统计量都有精确分布,因而对样本大小没有过多限制.
- 对于非正态总体,往往难以找到具有精确分布的检验统计量.
当样本容量
较大时,可以用检验统计量的渐近分布代替它的精确分布,从而得到近似的拒绝域.
- 中心极限定理: 独立同分布,总体的期望和方差分别为 ,则当 较大时, 近似服从 .
例 某县早稻收割面积为 100 万亩,现随机抽取 150 亩,得到平均亩产量 kg,样本的标准差 kg,问在显著性水平 下,能否预计这 100 万亩早稻的平均亩产量为 340 kg?
提示:
设 表示早稻的亩产量.
- 检验假设:.
- 由于 较大,若 成立,则近似地有 .
- 检验的拒绝域为 .
例 在两种工艺条件下纺出一批细纱,现随机地各抽取 个样品测试其能承受的最大拉力(单位:N). 经计算得到在这两种工艺条件下样本均值和样本标准差为
问在 下,两种工艺条件纺出的细纱的平均强度有无显著差异?
解:
设 分别表示甲、乙两种工艺条件纺出的细纱总体. 检验假设
取统计量 . 当 成立时, 的渐近分布为 . 在显著性水平 下,拒绝域为 .
根据观测值进行计算得到 . 因而不能拒绝 ,即认为在这两种工艺条件下纺出的细纱的平均强力无显著差异.
7.1.4 功效函数与最大功效检验
例 设 是来自总体 的样本, 未知,在显著水平 下,检验假设问题
检验1:
检验2:
或
检验3:
- 都满足了 I 类风险要求的情况下,哪一个检验(拒绝域)更好?
- 或者说,如何量化地比较不同的检验?
功效函数
对假设检验问题
的一个检验 (拒绝域为 ),称
为该检验的 功效函数(势函数, Power Function).
- 特别地,对 称 为检验 对于备择假设 在 处的 功效 (Power).
注: 拒绝 .
- 若 , 成立.
- 等于犯第 I 类错误的概率,即 I 类风险.
检验准则一:
.
- 若 , 成立.
- 等于根据样本观测值作出拒绝原假设的判断是正确的概率.
- 等于犯第 II 类错误的概率,即 II 类风险.
检验准则二:
满足 的同时,使得 尽可能小(或 尽可能大).
例:功效函数的计算
设 是来自总体 的简单随机样本,其中 未知. 在显著水平 下,检验假设
得到的拒绝域为
试求该检验的功效函数 .
解:
分析: 本例中
- 的图形关于 对称.
- 时,.
- 是 的最小值.


II 类风险的控制
- 本例中,若
固定样本容量
,
- 离 越远, 越接近 ,检验效果越好.
- 若 ,则 .
- 这意味着无法同时使两类风险都很小!
- 一般来说,在 I 类风险可控的前提下,可以通过增加样本容量来降低 II 类风险.
增大样本容量以降低 II 类风险
本例中,若已知 ,对于给定的 ,要使 II 类风险不超过 , 应该取多大?
分析:
当 较大时,.
- 只需 ,即可满足对 II 类风险的要求.
- 上式后一部分也即 .
- 由此最终可解得 .
例:单边检验的功效函数
设 是来自总体 的简单随机样本,其中 已知, 未知. 在显著水平 下,检验假设
采用 检验,试求该检验的功效函数 .
分析
- II 类风险:
- 设 ,要使 时,该检验的 II 类风险不大于 ,则令
结论:
样本容量至少为 才能使这个检验的 II 类风险不大于 .
例:工厂产品质量抽验方案
- 设有一大批产品,产品质量指标 ,以 小者为佳.
- 厂方要求所确定的验收方案对高质量的产品 能以高于概率 为买方所接受.
- 买方则要求低质产品 能以高于概率 被拒绝.
- 由厂方与买方协商给出,并采取一次抽样以确定该批产品是否为买方所接受.
- 已知 , 且由工厂长期经验知 . 又经商定 均取为 .
应该怎样安排抽样方案?
提示:
- 考虑显著性水平为 的检验问题:.
- 且要求当 时 II 类风险不超过 .
- 拒绝域 .
- 现要求当 时 .
- 也即 ,由此解得
- 代入数据计算得 .
- 结论: 取 ,当 ,也即 时,买方就拒绝这批产品;否则,若 ,则买方应接受这批产品.
N-P准则
- 对于同一个假设检验问题,在相同的显著性水平 下可以给出不同的检验,这些检验的功效函数是不同的.
- 1930s, Neyman- Pearson(N-P准则):在 I 类风险满足显著性水平 的前提下,使 II 类风险尽可能小,即要求这个检验的功效函数 满足:
最大功效检验(MPT)
对显著水平为 的假设检验问题
如果检验 ,使得对于任意一个检验 ,均有
则称 为这个假设检验问题在显著性水平 下的 一致最大功效检验(UMPT, Uniformly Most Powerful Test). 当 为简单假设时,称为 最大功效检验(MPT)
Neyman-Pearson 引理
设总体 的概率密度为 , 对显著水平为 的假设检验问题 , 如果存在临界值 , 使
那么,以
为拒绝域的检验 是该假设检验问题的 MPT.
似然比
- 称为 似然比 (Likelihood Ratio),也即似然函数 在 处的取值之比.
- Neyman-Pearson 引理给出的检验也称为 似然比检验.
- 似然函数 刻画了样本落在 附近的可能性的大小.
证明:
- 设 为任一其他检验的拒绝域,于是 .
- ;
- ,
- 由此即知 .
- 两个检验的功效分别为 和 ,
- 以下证明 .
例:求最大功效检验
设 是取自总体 的简单随机样本,其中 未知,要检验
其中 ,在显著性水平 下,求最大功效检验的拒绝域.
解:
- 由 Neyman-Pearson 定理,MPT 的拒绝域形如
- 成立时,.
- 取临界值 ,则 .
- 故所求 MPT 的拒绝域为
例:求一致最大功效检验
设 是取自 的样本,其中 未知,证明对于单侧假设检验问题
前例给出的拒绝域为
的 -检验 是显著性水平 下的一致最大功效检验(UMPT).
证明:
- 由前例:任给 , 对检验 , 是显著性水平 下的最大功效检验.
- 由于 与 的取值无关,所以对于检验 , 是显著性水平 下的一致最大功效检验.
- 设 是原假设问题 的显著性水平 下的任意一个检验,拒绝域为 .
- 当 成立时,.
- 显然 也是假设检验问题 的一个显著性水平 的检验.
- 是检验问题 的一致最大功效检验,故当 时,必有 .
- 可以验证 是原假设问题的一个显著性水平 下的检验.
- 因此, 也是原假设检验问题的一直最大功效检验.
小结