[关闭]
@blueband21c 2023-04-19T22:20:02.000000Z 字数 7300 阅读 3197

第五讲 全概率公式与 Bayes 公式

概率论与数理统计 讲义 NUDT 2023SP



5.1 全概率公式

例:设女性患某种疾病的概率为 ,男性患该病的概率为 ,已知全国的男女比例为 ,求任何一人患该病的概率.[1]


解:定义事件 表示患病,事件 分别表示男性和女性.


全概率公式

定理: 构成了样本空间的一个分划,且 ,则对任意事件 ,


例:新冠的全国治愈率

截止 2020 年 2 月 4 日,新冠病毒感染患者的治愈率在湖北省内为 ,在湖北省外为 ,已知湖北省内的患者总数占全国的 ,试求全国范围内的治愈率.


例:分袋摸球问题

有 10 个袋子, 其中甲袋二个, 每袋中有红球、白球各 2 个; 乙袋三个,每袋中有红球 3 个、白球 2 个; 丙袋五个, 每袋中有红球 2个、白球 3 个. 从 10 个袋中任取一袋, 再从袋中任取一球, 求取到白球的概率.


解: 分别表示取到甲、乙、丙袋, 表示取到白球. 由全概率公式


讨论

如果将三个袋中的球混合在一起,然后任取一球,问取到白球的概率是否一样?


例:Simpson 悖论

某医生尝试使用新疗法来对付死亡率很高的顽症,同时使用标准疗法对疗效进行对比评估,经一段时间的临床实践后,得到如下所示的统计数据.

- 标准疗法 新疗法
死亡 5950 9005
存活 5050(46%) 1095(11%)

很明显,新疗法的效果很糟糕. 可是,医生感到很委屈...


医生认为,无论是男性还是女性,新疗法的治疗存活率都高于标准疗法,可是为什么把两类人群合在一起计算时,结论就发生改变了呢?

男性患者

- 标准疗法 新疗法
死亡 950 9000
存活 50(5%) 1000(10%)

女性患者

- 标准疗法 新疗法
死亡 5000 5
存活 5000(50%) 95(95%)

Simpson 悖论 存在事件 ,满足 ,同时又有


分析: 不独立是导致悖论出现的前提. 事实上,

相互独立,则由 必可推出


5.2 Bayes 公式

例:一所学校里面有 60% 的男生. 男生总是穿长裤,女生则一半穿长裤一半穿裙子. 假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近视,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),请问他(她)是男生的概率是多大?


解: 定义事件: 男生, 女生; 穿长裤, 穿裙子. 由已知:, , , .

由全概率公式

穿长裤的人为男性的概率为 . 注意到 , 故


Bayes 公式

,则


更一般形式的 Bayes 公式

设事件 构成了样本空间的一个划分,且 , 则


例:次品来自哪个车间 ?

某工厂的一、二、三车间都生产同一产品,产量分别占总产量的 15%, 80%, 5%. 根据历史统计,三个车间的次品率分别为 2%, 1%, 3%. 现从汇总起来的产品中任取一个, 经检查是次品, 判断该次品是哪个车间生产的可能性较大?


解: 表示取得次品, 表示取到的产品是 车间生产的,,由全概率公式

再由 Bayes 公式

可见该次品是第二车间生产的可能性较大.


例:吸毒者的检测

现有一种检验吸毒者的测试. 历史数据显示,吸毒者检测呈阳性的概率为 , 不吸毒者检测呈阴性的概率为 . 已知某社区有 的居民是吸毒者,为了排查吸毒者,社区对全体居民进行了检测.

问:该社区中检测结果呈阳性的人确实是吸毒者的概率有多高?


分析:


先验概率的影响


5.3 Bayes 方法


因 vs. 果


Bayes 公式与机器学习


案例 I: 新闻主题分类器

输入:一篇新闻报道(文本)
输出:报道的主题(例如:经济、体育、娱乐、科学)


案例 II: 拼写检查

输入:可能存在拼写错误的词汇或句子(
输出:按照可能性排序的修改建议(


案例 III: 自然语言分析

输入: 一句(段)话
输出: 经过语义划分的语法结构


Bayes 推断/决策


扩展阅读


小结


No matter how correct a mathematical theorem may appear to be, one ought never to be satisfied that there was not something imperfect about it until it also gives the impression of being beautiful.
-- George Boole


Searching USS Scorpion



参考资料

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注