[关闭]
@pearl3344 2017-12-15T17:43:27.000000Z 字数 1139 阅读 1162

变分dropout ARD

bayesian 神经网络

icml 17 variational dropout sparsifies deep neural network


模型定义

全连接网络,-300-100-10 前两层是Rectify, 最后一层不加f输出p加softmax,


输入
输出
正确类标签 ,其它为0。
似然
交叉熵

概率描述:
w的先验分布是
w的后验分布是

, 当时,置对应的元素为0.
响应, w的后验分布是
响应a的后验分布是
采样
输出

目标函数是

KL系数rw:
开始5轮遍历数据集不考虑KL项,rw=0
第5-20轮遍历数据,KL项目的比例rw逐渐由0增加到1.
后续遍历数据集 目标函数为crossEntropy+KL。

ADAM 优化,0.9的一阶矩衰减速率,

学习率lr:
前100轮遍历数据,lr=0.001
后100轮遍历数据集,学习率由0.001线性减小至0,

更新的参数:W,b,sigma2.

sigma2 计算alpha,进一步计算mask,影响各层的输出。
比较分段函数switch,不会导致梯度为0不能更新吗?


数据处理

MNIST数据集:

初始化
当方差大于8后 clip成1。

200遍迭代
每批100个


添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注