@pluto-the-lost
2019-07-01T21:30:53.000000Z
字数 2289
阅读 26
pattern-recognition
statistical-inference
给定观测样本,设其独立同分布(iid),但分布形式未知,如何从样本中估计出概率密度函数(pdf) ?
不用对pdf的形式做任何假设,直接用样本估计出整个函数。某种意义上,非参数估计也可以理解为无限参数的估计,因为对pdf形式的假设其实给分布定下了很强的限制,参数个数一般决定了模型复杂度,而非参数估计的限制非常弱,可以认为模型复杂度无穷大。
考虑一个小区域R,某个随机向量落入这个区域的概率是
假定连续,则当R足够小,可以认为在该范围内没有变化,是常数。则上式可近似为
这里问题就是,和分别怎么估计
方法:
(1)把样本在其取值范围内分割成个等间隔的小窗,如果是维向量则把每一维都分成等份,这样就得到个小窗,因为都是超立方体,体积也很好求,且每个小窗的体积是一样的
(2)统计落入每个小窗的样本数
(3)
其中是对位置的pdf的估计,为落入所在小窗的样本点的个数,为样本总个数,为小窗的体积。
解释:
的估计:
样本集中,落入这个区域R的点的个数服从二项分布,即 ,那么就是二项分布下的无偏估计和极大似然估计了
的估计:
没有什么好估计的,每个小窗的都一样,是划分小窗的时候就固定的
优缺点:
优点:
(1)最简单直观,也是日常用得最多的
(2)理论上,当样本量趋于无穷多,可以收敛于
缺点:
(1)小窗数的选择影响很大,选择过小会导致估计的pdf非常粗糙,选择过大会导致有一些小窗内没有样本或者样本很少,使得估计的pdf很不连续
(2)收敛的条件是:a). , b). , c). 。即要求样本无穷多,小窗体积无穷小,每个小窗里的点无穷多,但相对总样本的比例无穷小。这个要求导致小窗的选取要与样本数、样本分布都有关,非常不方便。
(3)由于概率分布有高密度区域和低密度区域,也很有可能小窗数会相对高密度区域过小,相对低密度区域又过大
方法:
(1)对于任意坐标,计算其附近的个样本点,这个是根据的数量由用户自己设定的参数,常见的选择策略是
(2)包含这k个样本点的最小小窗的体积记为
解释:
和直方图法正好相反,法固定了,主要估计的是,也比较直观。此外,会在密度高的地方较小而在密度低的地方自动增大。
优缺点:
能比较好地兼顾高密度与低密度区域估计的连续性
方法:
其中叫窗函数,是需要满足pdf要求的函数,即
(2)高斯窗
(3)超球窗
解释:
一般来说窗函数是的函数,我认为可以从两个角度理解,对于待估计的任意一点,窗函数是把整个空间赋予了权重,样本点以其所在位置的权重贡献给,而权重的要求是其全定义域积分为1,所以。
从样本的角度,每个样本点以一个“窗函数”的形式对定义域里的所有位置产生影响,当然像方窗这样设定阈值,阈值之外贡献都是0的例子也有。下图示意的是高斯窗的场景。
优缺点:
每一个位置的pdf估计都用上了所有样本的信息,是这几种方法里最有效利用了信息的一个。窗函数及其参数选的好,可以保证pdf的连续性,甚至用很小的样本量就学到非常逼近的pdf。
但是窗函数的选取其实应该包含着使用者对pdf的某种假设,这与非参数学习的思想不是特别契合。