@songying
2019-01-07T12:11:27.000000Z
字数 894
阅读 1160
machine-learning
https://blog.csdn.net/pipisorry/article/details/51695283
熵: H(X)
相对熵: D_{KL}(p||q)
互信息: I(X,Y)
交叉熵: H(p,q)
条件熵: H(X|Y)
联合熵: H(X,Y)
信息增益:
困惑度:
如果说概率P是对确定性的度量,信息是对不确定性的度量,这两者是相对的, 事件发生的概率越大,那么事件的信息量就越小, 事件的概率与事件的信息量之间成反比。
举例来说:如果时间A发生的概率比事件B发生的概率要大,那么我们就说时间B的信息量要比事件A的信息量要大。
信息量的数学表达如下:
熵是对平均不确定性的度量,其实就是所有事件的信息量的期望。
互信息 I(X; Y)取值为非负。当X、Y相互独立时,I(X,Y)最小为0。
如果对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度来衡量这两个分布的差异。
计算公式为:
如果X,Y是一对离散型随机变量 X,Y - p(x,y), X, Y 的联合熵 为: