[关闭]
@lyc102 2018-10-16T11:20:49.000000Z 字数 2581 阅读 5336

经验分布函数

统计


是取自总体的样本, 其分布函数为, 是未知的. 为了估计分布函数, 使用如下统计量


其中表示集合中元素的个数, 称经验分布函数 (empirical distribution function). 上式中经验分布函数的定义体现了用频率近似概率的想法.

如果用表示集合的特征函数, 即


则经验分布函数可以改写成

将样本理解成样本值时, 是一个分布函数.
设随机变量, 则服从离散分布, 在内取值, 如果各 互不相同则服从上的离散均匀分布, . 如果中有相同的观测值则其相应的取值概率是 乘以重复次数.
对样本从小到大排序得到, 称为样本的次序统计量. 如果, 易见

将样本看成随机变量时, 是样本统计量.
是独立同分布的随机变量, 其共同分布为两点分布. 由Glivenko-Cantelli定理可知, 当时,


此结果表明的一致强相合估计(uniformly and strongly consistent estimator). 于是当样本容量充分大时, 能良好地逼近总体分布函数. 这是在统计学中以样本推断总体的依据.

经验分布函数与样本均值的关系

如果随机变量, 显然的期望


即样本均值. 所以样本均值可以理解成服从经验分布的随机变量的数学期望. 样本均值用于估计总体均值, 其本质上是用经验分布函数近似总体分布函数. 用经验分布函数近似总体分布函数的一个应用是bootstrap方法.

经验分布函数与直方图的关系

直方图 (histogram) 是估计分布密度非常直观简单的方法.

直方图作法

  1. 确定区间端点使得样本值都落入内;
  2. 确定分组数, 用划分点: 将区间 分割成个小区间;

  3. 计算样本值落入第个小区间的个数和频率;

  4. 为底,为高画长方形, 这个长方形的顶部为密度估计值.

由直方图的作法可知其对应的密度函数为


所以在第个小区间上,

经验分布函数是分段函数, 不可导. 而直方图定义的密度函数恰好是经验分布函数对应于划分 的分段差商.

经验分布函数与Rosenblatt直方图的关系

在直方图作法中, 估计处的密度时其所在区间的所有都估计成同一个值, 这些分点是预先取好的,与要估计的自变量的位置无关.

我们可以针对每一个, 以为中心、为半径做小区间, 用


来估计. 这个分布密度估计叫做Rosenblatt直方图估计.

如果把上面的区间改为左开右闭区间, 与经验分布函数恰好满足如下关系:


是对经验分布函数用差商近似估计导数的结果.

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注