[关闭]
@Hederahelix 2015-05-28T19:22:49.000000Z 字数 2996 阅读 2119

第一章 Introduction

PRML 机器学习


此处输入图片的描述

章节细讲


1.1 Example: Polynomial Curve Fitting
模型复杂度在这节用参数个数和惩罚系数两种表示。参数个数以为着模型越灵活,反之,模型拟合能力越弱。在给定有限的数据集中,当参数个数过大时,会产生过拟合效应,即模型灵活度过高,拟合了数据集的噪音,使得泛化能力变弱。另一方面,参数过少,模型可能无法拟合总体的规律,出现欠拟合效应。当我们加入惩罚项后,模型的灵活度不再是参数个数,而是惩罚系数。即惩罚系数越大,模型灵活度变低,相反灵活度变高。
此处输入图片的描述
上图中,模型复杂度是由参数个数来决定,可以看出参数个数等于9的时候,模型过拟合,曲线在测试点之间变得很不稳定。相反当模型复杂度小于3的时候,模型欠拟合,模型拟合能力很差,并不难很好的去拟合所有测试点。
此处输入图片的描述
同上图一样,只不过模型灵活度因为加入惩罚项后由惩罚系数来决定,左图中惩罚系数较低,模型灵活度较高,可以使残差很低,而右图则出现欠拟合现象。

1.2. Probability Theory
当我们在看到数据以前我们对某个事件有一个自己的“看法”,即先验分布,当有了数据以后,我们对这个事件的“看法”可能发生了变化,即后验分布。
1.2.3 Bayesian probabilities
与其说是贝叶斯学派对“概率”这个概念的解释,不如说是概率碰巧可以作为量化贝叶斯学派“degree of belief”这个概念的手段。贝叶斯学派认为某个未知的事件都有一个“uncertainty”的概念,对此给予“degree of belief”以度量不确定性。Cox 证明了如果要用数值去表示“degree of belief”,则表示“degrees of belief”的公理是等价于“概率”的 sum and product rules 因此之故,我们才可以用概率论去量化“degree of belief”。

对于Frequentist来说,model parameter w是一个固定但未知的量,即并非是随机变量,所以用“estimator”来估计;最常见的estimator是likelihood。而对Bayesian来说,参数w本身是一个不确定量,即随机变量,其不确定性用prior probability p(w)表示。由于两个学派在对待变量的方式上存在差异,因此在设计实验是也有很大区别。为了获知固定且未知的w,Frequentist进行用bootstrap重复多次的试验,获得不同的data sets D,因此在每个数据集上我们都可以对参数进行点估计,由此可以得到参数值得准确度。而对于Bayesian而言,数据集只有一个,因此在得到一个数据集D后,贝叶斯学派要调整原来在未得到数据前对于w的belief(prior probability),用用后验概率P(w|D)表示调整后的belief。调整的方法则是上节提到的贝叶斯定理。

1.5. Decision Theory
对于监督学习一般分为两阶段:先做inference,然后做decision。在inference stage,要得到联合概率分布或者后验概率分布,在decision stage,则用posterior probability to make optimal class assignments。
1.5.1 Minimizing the misclassification rate
此处输入图片的描述
图中是两个类别的“总体”的联合概率,从图中可以看出,当决策面是在两个类后验概率相等时,误分率最低。在实际计算中,由于不知道“总体”的联合概率,我们用“样本”的后验概率来确定决策面。
1.5.4 Inference and decision
有监督学习一般有三种解决方式:
1. discriminant function: map inputs x directly into decisions. 因此discriminant function把inference和decision合作一部解决了。
2. discriminant model: 第一步,解决inference problem,通过训练集对后验概率建模;第二步,解决decision problem,对于新给定的x,把它分配给某一个class。
3. generative model:第一步,explicitly or implicitly model the distribution of inputs as well as outputs,即通过训练集建模先验数据p(C1)和条件概率p(x|C1). 第二步,解决decision problem,对于新给定的x,把它分配给某一个class。

1.6. Information Theory
Conditional entropy:设有联合概率p(X,Y),则条件熵H[Y|X]为一个期望/平均值:

H(Y|X)=xp(x)H(Y|X=x)=xp(x)yp(y|x)ln p(y|x)=xyp(x,y)ln p(y|x)

根据上面的定义,可见要定义条件熵H[Y|X],先需定义当给定X=x时,Y的熵。即:
H(Y|X=x)=yp(y|x)ln p(y|x)

Relative entropy:设有一个未知的分布p(x),而q(x)为我们所获得的一个对p(x)的近似;按照q(x)(而非真实分布p(x))对该随机变量的各个值进行编码,平均编码长度比用真实分布p(x)进行编码要额外长多少?答案是相对熵(KL距离)KL(p||q)。即

KL(p||q)=xp(x)lnp(x)q(x)

Mutual information:如果两个随即变量X,Y是独立的,那么有p(x, y)=P(x)P(y);当二者并不独立时,我们希望可以度量它们离独立还有多远,这个度量就是互信息:

I(x,y)=KL(p(x,y)|p(x)p(y))=H(x)H(x|y)=H(y)H(y|x)

全章概况


此处输入图片的描述
本章是第一章,重点阐述几个机器学习常见话题,例如model selection、the curse of dimenstionality和三个重点部分即,概率论,决策论和信息论。在概率论中,重点讲解了贝叶斯学派和频率派对于参数认识的不同。在得到后验概率或者联合概率之后,决策论说明了应该怎么返回类标号或者目标值而使损失函数最小。最后介绍了信息论中三个重要话题即熵的意义,KL距离和互信息。

参考资料


  1. PRML, chapter 1
  2. Notes on Pattern Recognition and Machine Learning (Jian Xiao)
  3. Pattern Recognition And Machine Learning 读书会, chapter 1
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注