[关闭]
@songying 2019-01-07T12:11:27.000000Z 字数 894 阅读 1160

机器学习中的各种熵

machine-learning


https://blog.csdn.net/pipisorry/article/details/51695283

熵: H(X)
相对熵: D_{KL}(p||q)
互信息: I(X,Y)
交叉熵: H(p,q)
条件熵: H(X|Y)
联合熵: H(X,Y)
信息增益:
困惑度:

信息量

如果说概率P是对确定性的度量,信息是对不确定性的度量,这两者是相对的, 事件发生的概率越大,那么事件的信息量就越小, 事件的概率与事件的信息量之间成反比。

举例来说:如果时间A发生的概率比事件B发生的概率要大,那么我们就说时间B的信息量要比事件A的信息量要大。

信息量的数学表达如下:

熵是对平均不确定性的度量,其实就是所有事件的信息量的期望。


其中, n表示有n种事件, 每种事件发生的可能性为 .
举例来说, 电脑有电脑正常, 电脑死机, 电脑爆炸三种可能事件,那么n就为3。

互信息

互信息 I(X; Y)取值为非负。当X、Y相互独立时,I(X,Y)最小为0。

KL 散度(相对熵):Kullback-Leibler divergence

如果对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度来衡量这两个分布的差异。

计算公式为:

交叉熵

条件熵

联合熵

如果X,Y是一对离散型随机变量 X,Y - p(x,y), X, Y 的联合熵 为:

信息增益

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注