@zsh-o
2018-08-25T21:27:30.000000Z
字数 850
阅读 987
机器学习 杂记
机器学习
熵,条件熵,相对熵(KL散度),交叉熵
所有的熵都是针对分布来说的,表达系统的混乱程度
- 熵随机变量服从分布:
- 条件熵,有条件概率,在的所有位置都对应一个条件概率分布,此时对应的熵为,则对应整个系统的条件熵为各自熵的期望
- 相对熵(KL散度)用来描述两个分布和之间的差异,常用于变分推断中最小化相对熵得到假设估计分布的具体形式
- 交叉熵,对于分类问题来说,通常情况下我们得到的是样本属于每一类的概率,是关于类别的概率分布,而样本的真值label也可以看成是只有一个1(其他全为0)的分布,故损失函数可以用相对熵表示
由于为真实分布的熵为定值,故,训练的时候只需要最小化交叉熵即可