@pearl3344
2017-12-15T17:43:27.000000Z
字数 1139
阅读 1162
bayesian
神经网络
icml 17 variational dropout sparsifies deep neural network
全连接网络,-300-100-10 前两层是Rectify, 最后一层不加f输出p加softmax,
第层
输入
输出
正确类标签 ,其它为0。
似然
交叉熵
概率描述:
w的先验分布是。
w的后验分布是。
, 当时,置对应的元素为0.
响应, w的后验分布是
响应a的后验分布是
采样
输出
目标函数是
KL系数rw:
开始5轮遍历数据集不考虑KL项,rw=0
第5-20轮遍历数据,KL项目的比例rw逐渐由0增加到1.
后续遍历数据集 目标函数为crossEntropy+KL。
ADAM 优化,0.9的一阶矩衰减速率,
学习率lr:
前100轮遍历数据,lr=0.001
后100轮遍历数据集,学习率由0.001线性减小至0,
更新的参数:W,b,sigma2.
sigma2 计算alpha,进一步计算mask,影响各层的输出。
比较分段函数switch,不会导致梯度为0不能更新吗?
MNIST数据集:
初始化 。
当方差大于8后 clip成1。
200遍迭代
每批100个