@pearl3344
2018-07-23T20:46:39.000000Z
字数 5610
阅读 2941
统计,
DL
Learning Sparse Neural Networks through L0 Regularization_ICLR 2018
X Uniform(0,1): X在(0,1)这个范围内取值,取各个点的概率是相同的。
把空间的K维向量,映射到simplex--K维向量,每一维取值在(0,1)范围且K维取值之和等于1。
X Logistic(0,1): X在R上取值,但是其cdf是logistic函数,S形状, pdf像高斯的倒钟形但是是厚尾。
cdf是
则 是Logistic分布的。
用来建模某些分布的采样的最大值/最小值的分布。例如,已知某条河流过去十年里的最大水位值,则今年该条河流的最大水位x的分布可能是Gumbel分布。
X Gumbel(0,1) :X的 CDF是
U Uniform(0,1), 则 是Gumbel分布的。
两个Gumbel分布的随机变量的差服从logistic分布:
X Categorical(,...,): X取整数1...K,其中取整数j的概率是.
在神经网络中,输出实数向量 , 通过softmax函数,
已知进而采样可以判定得到的变量是Categorical分布的。
已知分布的参数,求采样的参数怎么求呢??? 不会求还是不会采样呢。
考虑向量形式的Categorical分布,
X Categorical(,...,)则X是一个K维的one-hot向量,即某一个向量维取值为1,其它向量维都取值为0。也即K-1维simplex的某一个顶点。
X Bernoulli(p): X取0/1,其中取1的概率是p
按照Gumbel max技巧采样Categorical分布的变量的方法采样Bernoullli分布的变量:
1. 采样2个均匀分布的变量
2. 得到Gumbel分布的变量的2个采样 ,
3. X=1 当且仅当 , 其中
通过采样logistic分布的变量采样Bernoulli分布的变量:
采样u
则采样得到Bernoulli变量X=1,否则采样得到X=0.
X Concrete(): 是一个K维向量,每维取值(0,1)之间,所有K维之和等于1。
该分布是对Categorical分布的连续放松,不是只能取K-1维simplex的某一个顶点,而是取K-1维simplex的内部某一个点。
当,Concrete分布的向量趋于onehot向量,即Categorical分布。
,,,其中
因为Concrete分布的变量 有
根据Gumbel-softmax技巧采样得到的Concrete变量为
通过采样logistic分布的变量采样二元Concrete分布的变量:
采样u
, 。
二元的只需要一个参数了
,
当, ,
即越大则第一个数取值比第二个数取值大的概率越大;越小两个数的差别越大。
, 。
的CDF为
为每个参数设置的门变量z是 0,(0,1]取值的随机变量。损失关于z的采样平均,惩罚项变为z不等于0的概率。
hard-sigmoid rectification函数:
二元concrete变量 ,的采样方法为
hard concrete变量门z:二元concrete + 扩展到(a,b)其中+ hard-sigmoid rectification函数
-
-
- 时候s=0,
- 时候s=1.
- z=min(1,max(0,s)) 也即
- 原来的二元concrete变量时候门变量;
- 原来的二元concrete变量时候门变量;
- 原来的二元concrete变量时候门变量;
- 的概率为 原来的二元concrete变量大于
惩罚项=
把二元concrete变量的参数作为要学习的复杂度参数