@lancelot-vim 2016-05-08T15:03:47.000000Z 字数 3266 阅读 2036

贝叶斯估计

模式分类

@author lancelot-vim

类条件密度

贝叶斯分类方法的核心是后验概率 $P(w_i |\vec{x})$ 的计算。贝叶斯公式告诉我们，如何根据类条件概率密度 $p(\vec{x}|w_i)$ 和各类别的先验概率 $P(w_i)$ 来计算这个后验概率,加入你有数据集 $D$ ，那么根据贝叶斯公式： $P(w_i|\vec{x},D)=\frac{p(\vec{x}|w_i,D)P(w_i|D)}{\sum_{j = 1}^cp(\vec{x}|w_j,D)P(w_j|D)}$

这个公式告诉我们，我们需要用已有的数据确定类条件概率密度 $p(\vec{x}|w_i,D)$ 和先验概率 $P(w_i|D)$ ，通常计算 $P(w_i|D)$ 是很容易的，即频率等于概率balabala就可以算出这个概率值来，但是类条件概率密度并不是那么容易的，实际上，对于每个样本，仅仅只有同一类别的样本对于该类别的类条件密度是有意义的

比如说，如果 $i \neq j$ ，那么 $D_i$ 对于计算 $p(\vec{x}|w_j,D)$ 没有任何意义，因此通常只用 $D_i$ 确定 $p(\vec{x}|w_i,D)$ ,也就是说贝叶斯公式可以写为: $P(w_i|\vec{x},D)=\frac{p(\vec{x}|w_i,D_i)P(w_i)}{\sum_{j = 1}^cp(\vec{x}|w_j,D_j)P(w_j)}$

因此，我们处理的核心问题，实际上是根据一组训练样本 $D_i$ ，估计分布 $p(\vec{x}|D_i)$ ，简单记 $D_i$ 为 $D$ , $p(\vec{x}|D_i)$ 为 $p(\vec{x}|D)$

参数的分布

我们总是认为分布 $p(\vec{x})$ 的形式是已知的，但是参数 $\vec{\theta}$ 并不知道，实际上我们需要做的事，是根据数据的到最好的 $\vec{\theta}$ 。

假如我们有一些先验知识，比如你对 $\vec{\theta}$ 有点感觉，他大概等于多少，或者可能是多少（这个感觉可以很模糊，也可以基本不确定，这都不会造成问题），那么这个问题我们可以等价为 $p(\vec{x}|\vec{\theta})$ 是已知的，并且确定的，而 $\vec{\theta}$ 的不确定问题（或者说你的先验的感觉），可以归纳成一个概率分布 $p(\vec{\theta})$ ，整个概率便可以重新写成:
公式(1)： $p(\vec{x}|D) = \int p(\vec{x},\vec{\theta}|D)d\vec{\theta} = \int p(\vec{x}|\vec{\theta})p(\vec{\theta}|D)d\vec{\theta}$

这个公式是贝叶斯估计的核心公式，他把类条件密度和后验概率相结合，将这个问题划归为一个优化后验概率密度 $p(\vec{\theta}|D)$ 的问题。假如这个后验密度在某个值 $\hat{{\theta}}$ 附近形成一个尖峰（最后收敛到狄拉克雷函数），那么自然有 $p(\vec{x}|D)\approx p(\vec{x}|\hat{\theta})$ ，假如没有收敛，甚至可能形成了一个平均，that's fine，我们可以认为 $p(\vec{x}|D)$ 是一种概率意义上的加权平均值

高斯情况

我们考虑期望 $u$ 未知的情况，即: $p(x|u) \sim N(u,\sigma^2)$ ， $\sigma$ 已知
我认为所有关于均值 $u$ 的知识全部包含在先验概率密度函数 $p(u)\sim N(u_0, \sigma^2_0)$ 中，其中 $u_0,\sigma_0$ 均已知

由于我们已经有很多样本，所以我们需要计算后验概率密度 $p(u|D)$ 对先验知识产生的密度 $p(u)$ 进行更新
公式(2): $p(u|D) = \frac{p(D|u)p(u)}{\int p(D|u)p(u)du} = \alpha \Pi_{k = 1}^n p(x_k|u)p(u)$
其中， $\alpha$ 为依赖与样本集 $D$ 的归一化系数, $p(x_k|u) \sim N(u|\sigma^2), p(u) \sim N(u_0, \sigma^2)$

根据高斯分布密度函数，可以得到
$p(u|D) = \alpha \Pi_{k = 1}^n \frac{1}{\sqrt{2\pi}\sigma}\exp[-\frac{1}{2}(\frac{x_k-u}{\sigma})^2]\exp[-\frac{1}{2}(\frac{u-u_0}{\sigma_0})^2] \\ \qquad \quad = \alpha'\exp[-\frac{1}{2}[(\frac{n}{\sigma^2} + \frac{1}{\sigma^2})u^2 - 2(\frac{1}{\sigma^2}\sum_{k=1}^{n}x_k + \frac{u_0}{\sigma^2_0})]] \\ \qquad \quad \ = \frac{1}{\sqrt{2\pi}\sigma_n}\exp[-\frac{1}{2}(\frac{u-u_n}{\sigma_n})^2]$

其中 $\frac{1}{\sigma^2_n} = \frac{n}{\sigma^2} + \frac{1}{\sigma^2_0},\qquad \frac{u_n}{\sigma^2_n} = \frac{n}{\sigma^2}\hat{u}_n + \frac{u_0}{\sigma^2_0}(\hat{u}_n = \frac{1}{n}\Sigma_{k = 1}^n x_k)$

最后解得：
$u_n = \frac{n\sigma^2_0}{n\sigma_0^2 + \sigma^2}\hat{u}_n + \frac{\sigma^2}{n\sigma_0^2 + \sigma^2}u_0$
$\sigma_n^2 = \frac{\sigma_0^2\sigma^2}{n\sigma_0^2 + \sigma^2}$

对于多变量情形，类似有

$\vec{u}_n = \Sigma_0(\Sigma_0 + \frac{1}{n}\Sigma)^{-1}\hat{u}_n + \frac{1}{n}\Sigma(\Sigma_0 + \frac{1}{n}\Sigma)^{-1}u_0$
$\Sigma_n = \Sigma_0(\Sigma_0 + \frac{1}{n}\Sigma)^{-1}\frac{1}{n}\Sigma$

贝叶斯参数估计示意图.png-97.9kB

最后根据公式(1)，实际上可以的到 $p(\vec{x}|D) \sim N(\vec{u}_n, \Sigma + \Sigma_n)$

贝叶斯参数估计一般理论

基本假设

条件概率 $p(x|\theta)$ 是完全已知的，虽然参数 $\theta$ 值未知
参数 $\theta$ 的先验概率密度函数 $p(\theta)$ 包含了我们对 $\theta$ 的所有先验知识
观测到的样本独立同分布

递归算法

记 $D^n = {x_1, x_2...x_n}$ ,由于样本独立同分布，可得 $p(D^n|\theta)=p(x_n|\theta)p(D^{n-1}|\theta)$
代入公式(2)得： $p(\theta|D^n)=\frac{p(x_n|\theta)p(\theta|D^{n-1})}{\int p(x_n|\theta)p(\theta|D^{n-1})d\theta}, p(\theta|D^0)=p(\theta)$

最大似然估计和贝叶斯估计的区别

对于先验概率能保证问题有解的问题下，最大似然估计和贝叶斯估计在训练样本趋于无穷大时候效果是一样的。

计算复杂度

最大似然估计是比较好的选择，因为最大似然估计只涉及到微分运算或梯度搜索，而贝叶斯估计需要复杂的多重积分

可理解性

最大似然估计比贝叶斯方法更容易理解，因为最大似然估计是基于设计者的设计和给出的样本的到的最佳解答，而贝叶斯方法的结果是许多可行解答的加权平均，可以反映出对多种可行解答的不确定程度

对先验知识的信任

最大死然估计得到的估计结果初始假设是一样的，但对于贝叶斯估计未必成立。通过使用全部 $p(\vec{x}|D)$ 中的信息，贝叶斯方法比最大似然方法能利用更多的信息，如果这些信息是可靠的，那么贝叶斯方法能得到更可靠的结果。而且，即使没有特定的先验知识请跨下，贝叶斯估计也能的到和最大似然估计相似的结果

下一篇：充分估计量