@lancelot-vim
2016-05-24T16:04:20.000000Z
字数 1200
阅读 1204
模式分类
@author lancelot-vim
估计未知概率密度的一个基本事实是:一个向量落在区域R中的概率为:,因此P是概率密度取了平滑的版本,所以,我们可以根据概率P来估计密度函数p.
假设n个样本都是根据概率密度函数独立同分布抽样得到的,显然,其中k个样本落在区域R中的概率服从二项分布:
那么k的期望为:,而且k的二项式形式的分布在均值附近有非常显著的波峰。我们可以想象到比值k/n就是概率P的一个很好的估计,这个估计当样本个数n非常大时将非常准确。如果我们假设p(x)是连续的,并且区域R足够小,以至于在这个区间中p几乎没有变化,那么
其中x为其中一个点,V则时区域R所包含的体积,那么我们可以得到的估计为,如下图:
如果我们固定体积V,并且能够获得越来越多的样本,那么比值k/n将能如我们所希望那样收敛,但实际上获得的其实是平滑版本:
我们暂且假设是一个d维的超立方体,如果表示超立方体一条边的长度,那么体积就是
通过窗函数,我们解析地定义落在窗口的样本个数的表达式:
这样就表达一个中心在原点的单位超立方体。如果落在超立方体中,那么,否则便为0,因此,超立方体中样本的个数就是
由此,我们可以得到比较一般的概率密度估计函数:
实际上,我们可以选取更好的函数,使其光滑性更好,例如高斯窗函数,然后认为,那么最后就可以写成正态概率密度的叠加,对于大多数例子来说,是一个很好的估计