@Hederahelix
2015-05-28T19:22:49.000000Z
字数 2996
阅读 2084
PRML
机器学习
1.1 Example: Polynomial Curve Fitting
模型复杂度在这节用参数个数和惩罚系数两种表示。参数个数以为着模型越灵活,反之,模型拟合能力越弱。在给定有限的数据集中,当参数个数过大时,会产生过拟合效应,即模型灵活度过高,拟合了数据集的噪音,使得泛化能力变弱。另一方面,参数过少,模型可能无法拟合总体的规律,出现欠拟合效应。当我们加入惩罚项后,模型的灵活度不再是参数个数,而是惩罚系数。即惩罚系数越大,模型灵活度变低,相反灵活度变高。
上图中,模型复杂度是由参数个数来决定,可以看出参数个数等于9的时候,模型过拟合,曲线在测试点之间变得很不稳定。相反当模型复杂度小于3的时候,模型欠拟合,模型拟合能力很差,并不难很好的去拟合所有测试点。
同上图一样,只不过模型灵活度因为加入惩罚项后由惩罚系数来决定,左图中惩罚系数较低,模型灵活度较高,可以使残差很低,而右图则出现欠拟合现象。
1.2. Probability Theory
当我们在看到数据以前我们对某个事件有一个自己的“看法”,即先验分布,当有了数据以后,我们对这个事件的“看法”可能发生了变化,即后验分布。
1.2.3 Bayesian probabilities
与其说是贝叶斯学派对“概率”这个概念的解释,不如说是概率碰巧可以作为量化贝叶斯学派“degree of belief”这个概念的手段。贝叶斯学派认为某个未知的事件都有一个“uncertainty”的概念,对此给予“degree of belief”以度量不确定性。Cox 证明了如果要用数值去表示“degree of belief”,则表示“degrees of belief”的公理是等价于“概率”的 sum and product rules 因此之故,我们才可以用概率论去量化“degree of belief”。
对于Frequentist来说,model parameter w是一个固定但未知的量,即并非是随机变量,所以用“estimator”来估计;最常见的estimator是likelihood。而对Bayesian来说,参数w本身是一个不确定量,即随机变量,其不确定性用prior probability p(w)表示。由于两个学派在对待变量的方式上存在差异,因此在设计实验是也有很大区别。为了获知固定且未知的w,Frequentist进行用bootstrap重复多次的试验,获得不同的data sets D,因此在每个数据集上我们都可以对参数进行点估计,由此可以得到参数值得准确度。而对于Bayesian而言,数据集只有一个,因此在得到一个数据集D后,贝叶斯学派要调整原来在未得到数据前对于w的belief(prior probability),用用后验概率P(w|D)表示调整后的belief。调整的方法则是上节提到的贝叶斯定理。
1.5. Decision Theory
对于监督学习一般分为两阶段:先做inference,然后做decision。在inference stage,要得到联合概率分布或者后验概率分布,在decision stage,则用posterior probability to make optimal class assignments。
1.5.1 Minimizing the misclassification rate
图中是两个类别的“总体”的联合概率,从图中可以看出,当决策面是在两个类后验概率相等时,误分率最低。在实际计算中,由于不知道“总体”的联合概率,我们用“样本”的后验概率来确定决策面。
1.5.4 Inference and decision
有监督学习一般有三种解决方式:
1. discriminant function: map inputs x directly into decisions. 因此discriminant function把inference和decision合作一部解决了。
2. discriminant model: 第一步,解决inference problem,通过训练集对后验概率建模;第二步,解决decision problem,对于新给定的x,把它分配给某一个class。
3. generative model:第一步,explicitly or implicitly model the distribution of inputs as well as outputs,即通过训练集建模先验数据
1.6. Information Theory
Conditional entropy:设有联合概率
Relative entropy:设有一个未知的分布
Mutual information:如果两个随即变量X,Y是独立的,那么有p(x, y)=P(x)P(y);当二者并不独立时,我们希望可以度量它们离独立还有多远,这个度量就是互信息:
本章是第一章,重点阐述几个机器学习常见话题,例如model selection、the curse of dimenstionality和三个重点部分即,概率论,决策论和信息论。在概率论中,重点讲解了贝叶斯学派和频率派对于参数认识的不同。在得到后验概率或者联合概率之后,决策论说明了应该怎么返回类标号或者目标值而使损失函数最小。最后介绍了信息论中三个重要话题即熵的意义,KL距离和互信息。