@pearl3344 2017-09-20T09:34:18.000000Z 字数 12460 阅读 7925

Gumbel Softmax 笔记

统计

CDF, 分位函数, 逆变换采样

CDF

任意随机变量都可以定义累积分布函数CDF

$F(x)=Pr(X\leq x)$

CDF $\in [0,1]$
CDF是递增函数，单调
当CDF是连续函数时，有反函数

分位函数

任意随机变量给定了CDF，都可定义分位函数quantile

$Q(p)=\inf \{x \in {\mathbb R}: p\leq F(x)\}$ 即

$Pr(X\leq x)=p$ 时候的

$x$ .
如果CDF是连续的函数，则分位函数就是CDF的反函数。

概率积分变换

对连续随机变量 $X$ ,CDF给定 $F(x)=Pr(X\leq x)$ 。
定义 $Y=F(X)$ 则 $Y \sim {\rm Uniform}(0,1)$ 的随机变量。
Proof:

$\begin{eqnarray*} Pr(Y\leq y) &=& Pr(F(X) \leq y) \\ &=& Pr( X \leq F^{-1}(y)) \\ &=&F(F^{-1}(y))=y \end{eqnarray*}$ 故有

$Y \sim {\rm Uniform}(0,1)$

逆变换采样

若某分布的CDF是连续的且解析形式给定，这其反函数存在，也就是其分位函数。
从均匀分布 $U(0,1)$ 采样概率 $u$ ，再逆变换 $z=F^{-1}(u)$ 得到的即是符合该分布的采样。

即 故 有

$\begin{eqnarray*} u\sim U(0,1) 即 Pr(u\leq x)=x ,Pr(u\leq F(x))=F(x) \\ z=F^{-1}(u) \\ 故有 Pr(z \leq x)=Pr(F^{-1}(u)\leq x)=Pr(u\leq F(x))=F(x) \end{eqnarray*}$

极值理论，极值分析EVA

$X_1,...,X_n$ 独立同分布的随机变量，累积分布函数F
$M_n=\max (X_1,...,x_n)$ ,则有

$\begin{eqnarray*} Pr(M_n \leq z) &=& Pr(X_1 \leq z,...,X_n \leq z) \\ &=& Pr(X_1 \leq z)\cdot \cdot \cdot Pr(X_n \leq z)=(F(z))^n \end{eqnarray*}$

【Fisher-Tippett-Gnedenko定理】
如果存在常数序列 $a_n>0,b_n\in {\mathbb R}$ 使得

$\lim_{ n \to \infty } Pr(\frac{M_n-b_n}{a_n} \leq z)=G(z)$ 则 $G(z) \propto \exp\{ -(1+ \zeta z)^{-1/\zeta} \}$ ，其中 $\zeta$ 为分布的尾部形状参数

Type-I： $M_n$ 有exponential指数尾，Gumbel

$G(z)=e^{-e^{-\frac{z-b}{a}}}, \ \ z\in \mathbb R$
Type-II: heavy尾,如多项式衰减 Frechet
Type-II: 有限上界的light尾,Weibull

Gumbel分布

也称Generalized Extreme Value distribtuion Type-I 第一类型广义极值分布，用来建模某些分布的采样的最大值/最小值的分布。例如，已知某条河流过去十年里的最大水位值，则今年该条河流的最大水位x的分布可能是Gumbel分布。

CDF

$G_Z(z;a,b)=Pr(Z\leq z)=e^{-e^{-\frac{z-a}{b}}}$ PDF
$f(z;a,b)=\frac{1}{b}e^{ -( \frac{z-a}{b}+e^{-\frac{z-a}{b} })}$ 均值 $a+\gamma b, \gamma \approx 0.5772$ 为欧拉常数
标准gumbel分布 $G(0,1)$ , CDF
$G(0,1)=e^{-e^{-z}}$ PDF
$f(z)=e^{-(z+e^{-z})}$
quantile函数

$Q(p)=a-b\ln (-\ln p )$ 即 $G_Z(a-b\ln (-\ln p);a,b)=Pr \left(Z\leq a-b\ln(-\ln p ) \right)=p$ .
采样
$U \sim {\rm Uniform}(0,1)$ , 则CDF为 $F(u)=Pr(U\leq u)=u$
$Z=a-b\ln(-\ln U))$ ,则

$\begin{eqnarray*} Pr(Z\leq z) &=& Pr(a-b\ln(-\ln U)\leq z) \\ &=& Pr(U\leq e^{-e^{-\frac{z-a}{b}}}) \\ &=& e^{-e^{-\frac{z-a}{b}}} \end{eqnarray*}$ 即 $Z \sim G_Z(z;a,b)$ 。
离散选择论，两个Gumbel分布的随机变量的差服从logistic分布
$G_1-G_2 \sim {\rm Logistic}$

Logistic分布

定义在 $(-\infty,\infty)$ 上的，是Turkey lambda分布的特例。

CDF是logistic函数，

$F(l;\mu,s)=\frac{1}{1+ e^{-\frac{l-\mu}{s}}}$
PDF和高斯分布很像，但是厚尾
均值 $\mu$ , 方差 $\frac{s^2\pi^2}{3}$
标准分布CDF

$F(l;0,1)=\frac{1}{1+ e^{-l}}$
Quantile函数

$Q(p;\mu,s)=\mu+s\ln\frac{p}{1-p}$
采样标准分布
- $U \sim {\rm Uniform}(0,1)$ 采样 $U$ ,
- $L=\ln U-\ln(1-U) \sim {\rm Logitic}$

Gumbel-Max trick

离散分布 Categorical 分布

$Y \sim {\rm Categorical} (\pi_1,...,\pi_K)$ 其中logit参数

$x_k \in (-\infty, \infty)$ ,

$\pi_k=\frac{e^{x_k}}{\sum_j e^{x_j}}$ Gumbel-Max trick是一种利用Gumbel分布采样Categorical分布的技巧，采样步骤为：
1.

$U \sim {\rm Uniform}(0,1)$ 采样

$u_1,...,u_K$ 。
2.

$Z=-\ln(-\ln U))\sim G_Z(z;0,1)$ ,则

$\{ z_i=-\ln(-\ln u_i)) \}_{i=1}^K$ 是

$Z$ 的采样。
3.

$Y=\arg \max_i( x_i +z_i)$ 是服从

${\rm Categorical} (\pi_1,...,\pi_K)$ 分布的。

Proof：
令 $t_i=x_i+z_i，i=1,...,K$ , 即需要证明

$Pr(t_k>t_i| \forall i\neq k)=\prod_{i\neq k} Pr(t_i<t_k)=\pi_k$
有K个不一样的Gumbel分布

$G_1(x_1,1),G_K(x_K,1)$ , 且

$t_i$ 是服从

$G(x_i,1)$ 分布的，即

$Pr(t_i \leq m )=e^{-e^{- (m-x_i) }}$ 所以有条件概率

$Pr(t_i<t_k|t_k)=e^{-e^{- (t_k-x_i) }}$

$t_k$ 是服从

$G(x_k,1)$ 分布的，即PDF

$f(t_k )= e^{ -( (t_k-x_k)+e^{-(t_k-x_k) })}=e^{ -(t_k-x_k)-e^{-(t_k-x_k) }}$ 积分掉

$t_k$ 考虑各种可能的

$t_k \in (-\infty,+\infty)$

$\begin{eqnarray*} Pr(t_k>t_i|i\neq k) &=& \prod_{i\neq k} Pr(t_i<t_k) \\ &=&\int_{-\infty}^{\infty} f(t_k) \prod_{i\neq k} Pr(t_i<t_k|t_k) \rm{d} t_k \\ &=&\int_{-\infty}^{\infty} e^{ -(t_k-x_k)-e^{-(t_k-x_k) }} \prod_{i \neq k} e^{-e^{- (t_k-x_i) }} \rm{d} t_k \\ &=&\int_{-\infty}^{\infty} e^{-t_k+x_k-e^{-t_k}(\sum_{i}e^{x_i})} \rm{d} t_k \end{eqnarray*}$ 令

$e^{-t_k}=w$ , 则

$t_k=-\ln w,\ \ w\in (0,\infty)$

$\begin{eqnarray*} Pr(t_k>t_i|i\neq k) &=&\int_{\infty}^{0} e^{x_k} e^{\ln w-w(\sum_{i}e^{x_i})} \frac{-1}{w} \rm{d} w \\ &=& -e^{x_k} \int_{\infty}^{0} e^{-(\sum_{i}e^{x_i})w} \rm{d} w \\ &=& -e^{x_k} \frac{e^{-(\sum_{i}e^{x_i})w}}{-(\sum_{i}e^{x_i})} |_{\infty}^{0}\\ &=& \frac{e^{x_k}}{\sum_{i}e^{x_i}} e^{-(\sum_{i}e^{x_i})w} |_{\infty}^{0}\\ &=& \frac{e^{x_k}}{\sum_{i}e^{x_i}} (1-0) \\ &=& \pi_k \end{eqnarray*}$ 其中主要利用了积分公式

$\int a^x dx =\frac{a^x}{\ln a}+C,\ \ \int e^{cx} dx =\frac{e^{cx}}{c}+C$
得证。

Gumbel-Softmax trick

Gumbel-max trick 通过 $Y=\arg \max_i t_i$ 得到 $\rm{ Categorical}(\pi_1,...,\pi_K)$ 的离散采样 $y\in \{1,...,K \}$

$y_{\max}=\arg \max_{i=1,...,K} t_i$ 其中

$t_i=x_i+z_i, z_i \sim G(0,1), \pi_k=\frac{e^{x_k}}{\sum_i e^{x_i}}, x_k \in (-\infty,+\infty)$

通过 $\arg\max$ 得到的有 $K$ 个状态的离散变量的取值是在 $K-1$ 维simplex的顶点，Gumbel-softmax采用softmax函数得到 $K-1$ 维simplex的内部的状态，即 $K$ 维概率向量，向量的每个元素属于 $(0,1)$ ，所有元素之和为1.

$\vec{y}=[\frac{e^{\frac{t_1}{\tau}}}{\sum_i e^{\frac{t_i}{\tau}}},...,\frac{e^{\frac{t_K}{\tau}}}{\sum_i e^{\frac{t_i}{\tau}}}].$

$\tau \in (0, + \infty)$
其中 $t_i=x_i+z_i, z_i \sim G(0,1), \pi_k=\frac{e^{x_k}}{\sum_i e^{x_i}}, x_k \in (-\infty,+\infty)$ (from concrete distribution,与gumbel max trick一致)
当 $\tau \to 0$ ,有 $\vec{y} \to \rm{onehot} (y_{\max})$ 平稳地逼近， $\vec{y} \to \rm{Categorical}(\pi_1,...,\pi_K)$

concrete分布 (Gumbel-softmax 分布)

对离散随机变量的连续放松。
$\alpha_k=e^{x_k},\ \tau \in (0,+\infty)$ , $Y\sim {\rm Concrete}(\alpha,\tau)$ ,
PDF:

$f(y)=(K-1)!\tau^{K-1}\prod_k \frac{\alpha_k y_k^{-\tau -1}}{\sum_i \alpha_i y_i^{-\tau}}$

【性质】

如果 $z_i \sim G(0,1), x_k \in (-\infty,+\infty),t_i=x_i+z_i,$ ，则
$\frac{e^{\frac{t_i}{\tau}}}{\sum_i e^{\frac{t_i}{\tau}}} \sim {\rm Concrete}(e^{x},\tau)$
如果 $Y\sim {\rm Concrete}(\alpha,\tau)$ ,则 $Pr(Y_k>Y_i,i\neq k)=\frac{\alpha_k}{\sum_i \alpha_i}$
如果 $Y\sim {\rm Concrete}(e^{x_k},\tau)$ ,则 $Pr(Y_k>Y_i,i\neq k)=\frac{e^{x_k}}{\sum_i e^{x_i}}$
如果 $Y\sim {\rm Concrete}(\alpha,\tau)$ ,则 $Pr( \lim_{\tau \to 0} Y_k=1)=\frac{\alpha_k}{\sum_i \alpha_i}$
如果 $Y\sim {\rm Concrete}( e^{x},\tau)$ ,则 $Pr( \lim_{\tau \to 0} Y_k=1)=\frac{e^{x_k}}{\sum_i e^{x_i}}$
如果 $Y\sim {\rm Concrete}(\alpha,\tau)$ ,且 $\tau \leq \frac{1}{K-1}$ 则PDF函数 $f(y)$ 关于 $y$ 是log-convex的。

Categorical分布与Concrete分布
Categorical分布与 $\tau$ 取不同值时候的Concrete分布，K=7.

$\tau \to 0$ 时候，Concrete分布是更接近Categorical分布了，但是梯度的方差变大了。实际应用中让其逐步变小。

Bernoulli变量（二元categorical）

　 $Y \sim {\rm Bernoulli}(p)=\rm{Categorical}(p,1-p)$

$p=\frac{e^{x_1}}{e^{x_1}+e^{x_2}}=\frac{1}{1+e^{x_2-x_1}}$ 表示二元变量Y取1的概率。

$x_2-x_1=-\log(p-1)$

Gumbel-max trick

$z_1+x_1>z_2+x_2$ 则 $Y=1$ .否则 $Y=0$ 。
不直接采样 $z\sim {\rm Gumbel}$ ; 而是利用两个Gumbel的差是logistic 采样。

$\begin{eqnarray*}　 Pr(Y=1) &=& Pr( z_1+x_1>z_2+x_2)=Pr(z_1-z_2>x_2-x_1) \\ &=& Pr(\log U-\log (1-U) > x_2-x_1) \end{eqnarray*}$

$U \sim {\rm Uniform}(0,1)$ 采样 $u$
$L=\log U-\log (1-U) \sim {\rm Logistic}(0,1)$ , $L> x_2-x_1$ 则y=1否则y=0.

Gumbel-softmax trick

$Y \sim \rm{Concrete}(e^x,\tau)$

$y_1=\frac{e^{\frac{z_1+x_1}{\tau}}} { e^{\frac{z_1+x_1}{\tau}} + e^{\frac{z_2+x_2}{\tau}} } =\frac{ 1 } { 1 + e^{\frac{z_2-z_1+x_2-x_1}{\tau}} }$ 同样利用Logistic分布直接采样

$L=z_2-z_1$ ,

$y_1=\frac{1}{1+e^{\frac{-L+x_2-x_1}{\tau}}}, \ \ y_0=1-y_1$

二元Concerte分布，参数 $\tau$ （图示写的\lambda..）取不同值时的情况。

下面水平的是 $L$ 服从logistic分布: 定义在 $(-\infty,\infty)$ ，蓝色线pdf很像normal但厚尾，黑色线CDF是logitic函数。采样一个 $L$ （虚线位置）减去 $\log(p-1)$ 再经过logitic函数，得到的值为 $y_1$ 。 $[y_1,y_2]$ 是bernoulli分布的概率向量表示后的的concrete分布变量。
左边垂直的从下往上看，concrete分布：定义在 $（0，1）$ ，蓝线PDF是很复杂的，且形状受 $\tau$ 取值影响。 $\tau=0$ 时 pdf退化成pmf，concrete退化成bernoulli。

VAE 与reparameterization

概率模型，密度估计问题 $\max p(X)$ 。
引入隐变量 $z$ ，可能的方法包括

直接积分 $p(X)=\int p(z)p(X|z) {\rm d} z$ 。
EM 迭代算法，E步先得后验 $p(z|X)$ , 表示出关于后验的期望 ${\mathbb E}_{p(z|X)}[\log p(X,z)]$ ， M步关于参数最大化期望 $\theta=arg \max_\theta {\mathbb E}_{p(z|X)}[\log p(X,z)]$ 。
其它的 mean-field VB算法（假设后验可因式分解）计算积分。

如果似然 $p(X|z)$ 很复杂（比如高斯分布但均值是有非线性函数的神经网络的输出），后验 $p(z|X)$ 不知道，上面方法都不可行
统计梯度VB

$\log p(X)\geq {\mathbb E}_{z\sim Q(z)}\left[ \log p(X|z)\right] -{\mathbb D}\left[ Q(z) ||p(z)\right]$ 且当 $Q(z)=p(z|X)$ 取等号。

所以只需要迭代地
1. 最大化不等号右边的式子；
2. 令 $Q=p(z|X)$ 使得等号成立,
即 $\max p(X)$ .

VAE流程图

编码过程：
1. 假设Q是高斯分布 $p(z|X)={\cal N}\left(\mu(X,\phi),\sigma^2(X,\phi) \right)$ ,
2. 且 $\mu(X,\phi),\sigma^2(X,\phi)$ 用神经网络表示，网络的输入为X，网络的输出为 $\mu,\sigma^2$ ,参数 $\phi$ 为神经网络权重参数 $W_{\rm Enc}$ .
3. 假设先验是标准高斯分布 $p(z)\sim {\cal N}(0,1)$
4. KL距离是 $X，W_{\rm Enc}$ 的函数 ${\mathbb D}\left[ Q(z) ||p(z)\right]=l_1(X,W_{\rm Enc})$
优化目标函数 $l$ 涉及到对 $W_{\rm Enc}$ 求导数计算梯度，可以利用链式法则

$x, W_{\rm Enc} \to \mu , \sigma \to l_1$
解码过程：
5. 用Monte Carlo近似积分

${\mathbb E}_{z\sim Q(z)}\left[ \log p(X|z)\right]=\frac{1}{I}\sum_i \log p(X|z^{(i)})$
6. 且采样z的方法

$z=\mu+\epsilon \sigma$ 保证了z是参数

$\mu,\sigma$ 的连续函数
7. 似然

$p(X|z)$ 是简单的norm/bernoulli/Categorical分布，参数可以是复杂的神经网络

$\theta(z, W_{\rm Dec})$ ,
7.

${\mathbb E}_{z\sim Q(z)}\left[ \log p(X|z)\right] \simeq l_2( \epsilon, X )$
优化目标涉及到对

$W_{Dec}, W_{\rm Enc}$ 求导数计算梯度，
链式法则

$x,W_{\rm Enc} \to \mu,\sigma \to z, W_{\rm Dec}\to \theta \to l_2$
由于利用了reparameterization trick采样的

$z$ 是

$\mu,\sigma$ 的连续可导的函数，保证链式法则可以一直反向传播。

reparameterization trick(原理)

需要求函数 $f(z)$ 相对于某个分布 $q_\phi(z|x)$ 的期望时，如果 $z$ 可以表示成分布的参数 $\phi$ 的连续的形式 $z=g_\phi(\epsilon, x)$ , 则该期望可以写成关于 $\epsilon$ 的分布 $p(\epsilon)$ 的积分，且该积分不依赖于z的分布参数 $\phi$ 。

主 要 利 用 公 式

$\begin{eqnarray*} {\mathbb E}_{q_{\phi}(z|x)}\left[f(z)\right] &=& \int p(\epsilon) f(z) {\rm d} \epsilon =\int p(\epsilon) f\left(g_\phi(\epsilon, x)\right) {\rm d} \epsilon \\ {\rm 主要利用公式} && q_\phi(z|x)\prod_i {\rm d} z_i=p(\epsilon)\prod_i {\rm d}\epsilon_i \\ \nabla_\phi {\mathbb E}_{q_{\phi}(z|x)}\left[f(z)\right] &=& \nabla_\phi {\mathbb E}_{p(\epsilon)}\left[f\left(g_\phi(\epsilon,x)\right)\right] = {\mathbb E}_{p(\epsilon)}\left[\nabla_\phi f\left(g_\phi(\epsilon,x)\right)\right] \end{eqnarray*}$

采用Monte Carlo近似积分,

$\begin{eqnarray*} {\mathbb E}_{q_{\phi}(z|x)}\left[f(z)\right] & \simeq & \frac{1}{L} \sum_l f\left(g_\phi(\epsilon^{(l)}, x)\right),\ \ {\rm where} \ \ \epsilon^{(l)} \sim p(\epsilon)\\ \nabla_\phi {\mathbb E}_{q_{\phi}(z|x)}\left[f(z)\right] & \simeq & \frac{1}{L} \sum_l \nabla f\left(g_\phi(\epsilon^{(l)}, x)\right) \end{eqnarray*}$

这种近似是对梯度的无偏估计，且实际应用中发现这种梯度的估计的方差比其它一些估计小。

所以在梯度方法解优化问题中，需要求函数 $f(z)$ 相对于某个分布 $q_\phi(z|x)$ 的期望时，把z表示成分布的参数 $\phi$ 的连续的形式 $z=g_\phi(\epsilon, x)$ 的时候，用z的这些采样Monte Carlo方法估计期望，此时得到的期望关于参数 $\phi$ 可微的，且对梯度是很好的估计。

例如 $q_\phi(z|x)={\cal N}(\mu,\sigma^2)$ , 参数 $\phi=(\mu,\sigma)$ ,
目标函数 $f(z)$ ,要求 ${\mathbb E}_{q_{\phi}(z|x)}\left[f(z)\right]$ 。
则可以用 $z=\mu+\epsilon \sigma$ 采样 $z$ ，其中 $\epsilon \sim {\cal N}(0,1)$ ,

${\mathbb E}_{q_{\phi}(z|x)}\left[f(z)\right] \simeq \frac{1}{L} \sum_l f\left( \mu+\epsilon \sigma^{(l)}\right),\ \ {\rm where} \ \ \epsilon^{(l)} \sim {\cal N}(0,1).$

Categorical VAE with Gumbel softmax trick Reparameterization

当计算图中出现离散的随机变量时候，比如上例VAE模型中
$Q(z)=p(z|x)={\rm Categorical}\left(\pi(X,W_{\rm Enc})\right)$ ,
对 $z$ 的采样需要写成 $W_{Enc}$ 的连续函数以方便求对 $W_{\rm Enc}$ 的梯度，进而优化目标函数。
Gumbel softmax技巧的采样方式是

$\vec{z}=[...\frac{e^{\frac{o_k-\ln(-\ln U_k)}{\tau}}}{\sum_i e^{\frac{o_i-\ln(-\ln U_i)}{\tau}}},... ].$
其中

$o$ 是神经网络的输出，对

$W_{Enc}$ 可导;

$U_i \sim {\rm Uniform}(0,1)$ 。

先验 $p(z)=[\frac{1}{K},...,\frac{1}{K}]$
后验 $Q(z)=p(z|X)=\rm softmax(o_{\rm z})$ ，其中 $o_{\rm z}=o(X,W_{\rm Enc}) \in {\mathbb R}^K$
KL距离 ${\mathbb D}\left[ Q(z) ||p(z)\right]=\sum_k Q_k \log \frac{Q_k}{p_k}$
训练过程，按照上述方法采样向量 $z$ , 其中 $\tau =\max \{ e^{-0.00003*{\rm batch}},0.5\}$
似然 $x_i|z \sim {\rm Bernoulli}\left( {\rm logistic}(o_{{\rm X_i}})\right)$ , 其中
$o_{\rm X}=o(z,W_{\rm Dec})\in {\mathbb R}^{784}$
期望 ${\mathbb E}_{z\sim Q(z)}\left[ \log p(X|z)\right] \simeq \log {\rm logistic}(o_{{\rm X_i}})$
关于 $W_{\rm Enc}, W_{\rm Dec}$ 最大化 ${\mathbb E}_{z\sim Q(z)}\left[ \log p(X|z)\right] -{\mathbb D}\left[ Q(z) ||p(z)\right]$ .

离散变量的采样求梯度的其它方法

梯度的统计估计方法包括
1. 评分函数SF的估计
2. Monte Carlo估计加一些方差减小的技巧
3. 有偏的梯度估计（bernoulli变量）

评分函数Score Function

需要求

$\nabla_\phi {\mathbb E}_{p_{\phi}(z)}[f(Z)] =\nabla_\phi \int p_{\phi}(z) f(Z) {\rm d} z =\int f(Z)\nabla_\phi p_{\phi}(z) {\rm d} z$
利用求导公式

$\nabla \log p(x)=\frac{\nabla p(x)}{p(x)}$ 有

$\nabla p(x)=p(x) \nabla \log p(x)$
所以

$\nabla_\phi {\mathbb E}_{p_{\phi}(z)}[f(Z)] =\int f(Z) p(z) \nabla \log p(z) {\rm d} z ={\mathbb E}_{p_{\phi}(z)}[f(Z)\nabla_\phi \log p(z)]$
把z的函数关于z的分布求期望后的梯度转换成 z的分布先求梯度再与在的函数相乘求期望。

有偏路径导数biased path derivative估计及ST

$z$ 是离散的，不能reparameterizable, 用一个可以求导的代理 $m(\phi)$ 的导数来近似 $z$ 的导数
$\nabla _\phi(z) \approx \nabla_\phi m(\phi)$

直接通过 Straight Through 估计
取 $m=\mu_\phi(z)$ 。例如 $z \sim {\rm Categorical}(\pi)$ ,直接用z的期望 $\pi$ 代表z。

ST Gumbel-softmax估计

Gumbel-softmax得到连续的松弛向量y,
前向传播计算函数值的时候，采用 $\arg \max$ 对y进行离散化得到 $z$ ,
后向传播计算梯度的时候，采用松弛向量y计算梯度。

比较：
1. SF：利用 $\nabla \log p(x)$ 的性质转化成对密度函数的求导
2. SF的变种: DARN,MuProp
3. ST: 用离散变量的期望代替采样
4. Slope-Annealed ST:
5. ST Gumbel-softmax：前向计算数值时候对连续向量放松argmax离散化，后向计算梯度时候应用连续向量放松。
6. Gumbel-Softmax：利用softmax得到连续的放松向量

思考

在dropout应用中，如果模型是

$z \sim { \rm Bernoulli}(\rm s (\beta))$ 采用采样方法

$\begin{eqnarray*} u & \sim & {\rm Unioform}(0,1) \\ z &=& \begin{cases} 1 & u \leq s (\beta) \\ 0 & u>s (\beta) \\ \end{cases} \end{eqnarray*}$ 有什么问题呢？

分段函数，梯度的表达形式不一样。
但是是连续可导的，可以链式法则后向传播，软件可以自行计算。

noise=tf.random_uniform([1,FLAGS.hidden1_units])
z=tf.where(noise<theta,tf.ones([1,FLAGS.hidden1_units]),tf.zeros([1,FLAGS.hidden1_units]))

$\begin{eqnarray*} {\rm Sign}(x) &=& \begin{cases} 0 & x \leq 0 \\ 1 & x> 0 \\ \end{cases} \\ {\rm Sign}'(x) &=& \begin{cases} 0 & x \neq 0 \\ +\infty & x= 0 \\ \end{cases} \\ z&=&{\rm Sign}\left(s(\beta)-u\right) z'={\rm Sign}'s'=0 \end{eqnarray*}$
即前向计算目标值的时候采样正确，但反向求导计算梯度时候梯度为0不会更新参数。

TODO

用sigmoid或softmax近似表示确定的离散性（learning to reduce with unbounded memory,Hybrid computign using a nn with dynamic external memory) 与需要离散状态上的分布的区别？
在强化学习、GAN、Quantized压缩中的应用
二元concrete分布 $\tau<=1$ 时，pdf是log-凸？
VAE 求期望为什么不直接积分，而要用采样得到Monte Carlo近似。
categorical reparameterization文章中提出的是 $t_i=x_i+z_i, z_i \sim G(0,1), \pi_k= e^{x_k} , x\in (-\infty,0)$
1. 若 $x_k=\ln \pi_k$ ， Gumbel-max trick采样到的是categorcial分布吗？
2. Gumbel-softmax的 $x_k=\ln \pi_k$ 要求 $x_k<0$ ，在代码实现中是如何保证的？

主要参考文献：
1. The Concrete Distribution: a Continuous Relaxation of Discrete Random Variables_ICLR2017
2. Categorical Reparameterization by Gumbel-Softmax_ICLR2017
3. GANS for Sequences of Discrete Elements with the Gumbel-Softmax Distribution_NIPS2016