@pearl3344 2018-05-24T13:48:13.000000Z 字数 1567 阅读 1131

VAE

dl vae

Kingma, Welling. Auto-Encoding Variational Bayes. ICLR, 2014

latent变量 $z$ ，
观测变量 $x$ ，
先验分布 $p(z)$ ，参数 $\theta$ ；
似然分布 $p(x|z)$ ，参数 $\theta$ 。
似然（关于 $\theta$ 的）函数可以很复杂，比如是神经网络。
true后验分布 $p(z|x)$ 不可求，
用神经网络 recognition模型 $q(z|x)$ ，参数 $\phi$ 来近似。

$\log p(X)=\sum_{i=1}^n \log p(x_{(i)}) \\ \log p_\theta(x)\ge {\mathcal L}={\mathbb E}_{q_\phi}\left[\log p_\theta(x|z)\right]-{\mathbb D}\left[q_\phi(z|x)|p_\theta(z)\right]$

同时关于 $\theta$ 和 $\phi$ 最大化 $\mathcal L$ 。

vae

naive monte carlo 梯度估计：方差特别大，有问题。

$\begin{eqnarray*} && \nabla_\phi {\mathbb E}_{q_\phi(z)}\left[f(z)\right] \\ =&& \nabla_\phi\int {q_\phi(z)} f(z) {\mathrm d}z \\ =&& \int f(z) \nabla_\phi {q_\phi(z)}{\mathrm d}z \\ =&& \int f(z) q_\phi(z) \nabla_\phi \log {q_\phi(z)}{\mathrm d}z \\ =&& \mathbb{E}_{q_{\phi}(z)}\left[f(z) \nabla_{q_\phi(z)}\log q_\phi(z)\right] \\ \approx && \frac{1}{L}\sum_{l=1}^L f(z) \nabla_{q_\phi(z_{(l)})}\log q_\phi(z_{(l)}) \end{eqnarray*}$

Stochastic Gradient VB 估计：

$\begin{eqnarray*} \tilde{z} \sim q_\phi(z|x) \\ \tilde{z}=g_\phi(\epsilon;x), \ \epsilon\sim p(\epsilon)\\ {\mathbb E}_{q_\phi}\left[\log p_\theta(x|z)\right] ={\mathbb E}_{p(\epsilon)}\left[ \log p_\theta \left(x_{(i)}|g_\phi(\epsilon,x_{(i)}) \right)\right] \approx \frac{1}{L} \sum_l \log p_\theta \left(x_{(i)}|g_\phi(\epsilon_{(l)},x_{(i)})\right) \end{eqnarray*}$

例如:

$\begin{eqnarray*} \tilde{z} \sim q_\phi(z|x)=N\left(u(w,x),\sigma^2(w,x)\right) \\ \tilde{z}_{i,l} =g_\phi(\epsilon_{(l)},x_{(i)})=u(w,x_{(i)})+\epsilon_{(l)}\sigma(w,x_{(i)}) \end{eqnarray*}$

这不就是z从后验分布采样吗？Monte Carlo积分不应该就是这样吗？为什么叫统计变分贝叶斯估计。。？

$x$ → u( $w_\phi$ ,x), sigma( $w_\phi$ ,x) → $\tilde z$ → ${\hat x}$ ( $w_\theta$ , $\tilde z$ )

Obj= CrossEntropy[ $x$ , ${\hat x}$ ( $w_\theta$ , $\tilde z$ )] + KL[ N(u( $w_\phi$ ,x),sigma( $w_\phi$ ,x)) | N(0,1) ]

VAE

内容目录