关于相对熵(KL距离)的理解
信息论
定义:两个概率质量函数为p(x)和q(x)之间的相对熵或KL距离定义为
D(p||q)=∑x∈χp(x)logp(x)q(x)
理解
如果已知随机变量的真实分布为p,可以构造平均描述长度为H(p)的码,但是,如果使用针对分布q的编码,那么平均意义上就需要∑x∈χp(x)log1q(x)(记作H(p||q))比特来描述这个随机变量。那么可以这样定义D(p||h)
D(p||q)=H(p||q)−H(p)=∑x∈χp(x)log1q(x)−∑p(x)log1p(x)=∑x∈χp(x)logp(x)q(x)
总结就是,使用由
q构造的编码将会在平均意义上比最优编码(由真实分布
p构造的编码)长
D(p||q)比特。