@pearl3344 2017-12-15T09:43:27.000000Z 字数 1139 阅读 1275

变分dropout ARD

bayesian 神经网络

icml 17 variational dropout sparsifies deep neural network

模型定义

全连接网络，-300-100-10 前两层是Rectify, 最后一层不加f输出p加softmax，
第 $l$ 层
$a^{(l)}=o^{(l-1)}w^{(l)}+b^{(l)}\\ o^{(l)}=f(a^{(l)})\\$
输入 $x=o^{(0)}$
输出 $p_i=\frac{\exp a_i^{(L)}}{\sum_j \exp a_j^{(L)}}$
正确类标签 $y_c=1$ ，其它为0。
似然 $p(y|a^{(L)})=p_c=\frac{\exp a_i^{(L)}}{\sum_j \exp a_c^{(L)}}$
交叉熵 ${\rm CrossEntropy}(y,p)=-\sum_j y_j \log p_j=-\log p_c=-\log\frac{\exp a_c^{(L)}}{\sum_j \exp a_j^{(L)}} =-\log p(y|a^{(L)})$

概率描述：
w的先验分布是 $\propto \frac{1}{|w|}$ 。
w的后验分布是 $N(w,\sigma^2)$ 。

$\alpha=\frac{\sigma^2}{w^2}$ , 当 $\alpha>e^3$ 时，置对应的 $W$ 元素为0.
响应 $a=xw+b$ , w的后验分布是 $N(w,\sigma^2=\alpha w^2)$
响应a的后验分布是 $N(xw+b,x^2\sigma^2+10^{-8})$
采样 $a=xw+b+ \sqrt{x^2\sigma^2+10^{-8}} \epsilon$
输出 $o=f(a)$

目标函数是
$\sum_i {\rm categoryCrossentropy}(o, y) + rw*\sum_l {\rm KL}[N(w;\sigma^2)||\frac{1}{|w|}]$

KL系数rw:
开始5轮遍历数据集不考虑KL项，rw=0
第5-20轮遍历数据，KL项目的比例rw逐渐由0增加到1.
后续遍历数据集目标函数为crossEntropy+KL。

ADAM 优化，0.9的一阶矩衰减速率，

学习率lr：
前100轮遍历数据,lr=0.001
后100轮遍历数据集，学习率由0.001线性减小至0， ${\rm lr}=(2-\frac{\rm epoch}{100} )*0.001$

更新的参数：W,b,sigma2.

sigma2 计算alpha,进一步计算mask，影响各层的输出。
比较分段函数switch，不会导致梯度为0不能更新吗？

数据处理

MNIST数据集：

[0,255]的数据转换到[0,1)
减去训练集的均值

初始化 $\log \sigma^2=-10, \sigma^2=0.000045,\sigma=0.0067$ 。
当方差大于8后 clip成1。

200遍迭代
每批100个

变分dropout ARD

模型定义

数据处理

内容目录