@Perfect-Demo
2018-03-29T14:45:15.000000Z
字数 1821
阅读 1276
统计学习方法
朴素贝叶斯法通过训练数据集学习联合概率分布。具体是学习以先验概率分布以及条件概率分布。
其中先验概率分布为:
于是可以学习到联合概率分布P(X,Y)
但是条件概率分布有指数级数量的参数,其估计实际是不可行的,事实上,假设可去值有个,可取值有个,那么参数个数为
所以朴素贝叶斯法实际上学习到生成数据的机制,所以数据生成模型。条件独立假设说明用于分类的特征在类确定的条件下都是条件独立的(这一假设会使得该方法更简单,不过有时候会牺牲一定的分类准确率)
3.下面来看看贝叶斯分类器的生成
对于给定的输入向量,通过学习到的模型计算后验概率分布,后验分布中最大的类作为的输出结果,根据贝叶斯定理可知后验概率为:
由于下面的分布是想用的,于是有最大概率公式:
上面已经给出了对于输入输出为,
对此可应用极大似然估计法来估计相应的概率。
先验概率:
设第j个特征集合为条件概率为的极大似然估计为:
感觉挺抽象的,还是直接上例子吧(书P50例4.1)
:试由下表的训练数据学习一个朴素贝叶斯分类器并确定的类标记,表中为特征,为类标记。
先验概率:
后验概率:
......此处略去另外用不到的,实际上还是要算(详情见书上)
对于给定的计算到
最大,所以
背景:由于用极大似然估计可能会出现所要素及的概率值为0的情况。这时会影响到后验概率的计算结果,是分类产生偏差,解决这个问题的方法是采用贝叶斯估计,具体的,条件概率的贝叶斯估计是:
式子中,等价于在随机变量各个取值的频数上赋予一个正数.特殊得当时时极大似然估计,取时,称为拉普拉斯平滑。
另外上式的先验概率的贝叶斯估计是:
同样,例题在P52页,和上面的类似,就是多加了这几个参数,此不赘述。
代码将稍后奉上,请稍等。