@songying 2018-10-18T12:36:32.000000Z 字数 2221 阅读 1922

Show and tell: Neural Image Caption Generation with Visual Attention

Attention

https://zhuanlan.zhihu.com/p/35703999
https://www.cnblogs.com/taojake-ML/p/6113459.html

这篇文章是attention mechanism的开山之作。

Abstract

我们引入attention来自动描述images的内容。

Introduction

在本文中，我们针对 caption generation 提出了两种基于注意力机制的方法：基于基本反向传播训练的soft Attention方法和使用强化学习训练的Hard Attention方法。

本文中我们的贡献如下：
1. 提出两种基于注意力机制的图像描述生成模型: 使用基本反向传播训练的Soft Attetnion方法和使用强化学习训练的Hard Attention方法.
2. 可视化注意力模型.
3. 在多个数据集上量化验证Attention的作用.

Image Caption Generation with Attention Mechanism

3.1. Model Detail

本节先介绍两种注意力机制的共同框架，二者主要的区别在第四节中描述。

模型的目标是将图片转化为编码过的句子 $y$ 。

$y = {y_1, \cdots, y_C} , y_i \in R^k$
其中, K是词典的大小(包含单词的数量), C是句子的长度.

3.1.1 Encoder： Convolutional Features

本层目的是使用CNN获取image的特征。
使用CNN提取L个低层次特征向量，每个D维特征向量对应于图像的一部分：

$a = {a_1, \cdots ,a_L}, a_i \in R^D$

3.1.2: Decoder: LSTM Network

我们使用LSTM来进行解码生产文本描述,计算过程如下

$i_t$ : LSTM的输入门

$f_t$ : LSTM 的遗忘门

$o_t$ : LSTM 的输出门

$g_t$ : LSTM 当前输入的单元状态

$c_t$ : LSTM 的记忆

$h_t$ : LSTM 的隐层状态

$\hat{z} \in R^D$ ：是上下文向量矩阵，

$\hat{z_t}$ : 表示的是图片某一位置的信息

$E \in R^{m * k}$ ：是词向量矩阵

$i_t = \sigma(W_i E y_{t-1} + U_i h_{t-1} + Z_i \hat{z_t} + b_i) \\ f_t = \sigma(W_f E y_{t-1} + U_f h_{t-1} + Z_f \hat{z_t} + b_f) \\ o_t = \sigma(W_o E y_{t-1} + U_o h_{t-1} + Z_o \hat{z_t} + b_o) \\ g_t = tanh(W_c E y_{t-1} + U_c h_{t-1} + Z_c \hat{z_t} + b_c ) \\ c_t = f_t \odot c_{t-1} + i_t \odot g_t \\ h_t = o_t \odot tanh(c_t)$

简而言之，上下文向量 $\hat{z_t}$ 是 $t$ 时刻图像相关部分的动态表示。我们定义了一种机制 $\phi$ 来根据向量 $a_i, i= 1, \cdots, L$ 来计算 $\hat{z_t}$ ，其中， $a_i$ 对应的是图像不同上提取到的特征。对于每个位置 i，该机制生成一个权重 $a_i$ ，表示的是位置 i 对生成下一个词的影响力或重要性。而权重 $a_i$ 是用注意力模型 $f_{att}$ 来计算所得的，而针对hard attention 与 soft attention，我们有不同的 $f_{att}$ 。

上 下 文 向 量 ：

$e_{ti} = f_{att}(a_i, h_{t-1}) \\ a_{ti} = \frac{exp{(e_{ti})}} {\sum_{k=1}^{L} exp(e_{tk})} \\ 上下文向量： \hat{z_t} = \phi(\{a_i\}, \{\alpha_i\})$

隐层的初始状态表示：

$c_0 = f_{init, c}(\frac{1}{L} \sum_i^L a_i) \\ h_0 = f_{init, h}(\frac{1}{L} \sum_i^L a_i)$

最终的输出为：

$p(y_t|a, y_1^{t-1}) \in exp(L_0(Ey_{t-1} + L_hh_t+ L_z\hat{z_t})$

4. Learning Stochastic “Hard” vs Deterministic “Soft” Attention

本节中我们讨论两种注意力机制 $f_{att}$ : stochastic attention and deterministic attention.

二者区别：

Stochastic “Hard” Attention

我们使用位置变量 $s_t$ 表示在生成 $t^{th}$ 个词时模型所关注的区域。如果第i个位置被用来提取图像特征的位置，那么我们就设 $s_{t,i} = 1$ ，其余位置都设置为0。

Deterministic "Soft" Attention

Soft Attention是参数化的（Parameterization），因此可导，可以被嵌入到模型中去，直接训练。梯度可以经过Attention Mechanism模块，反向传播到模型其他部分。

Hard Attention是一个随机的过程。Hard Attention不会选择整个encoder的输出做为其输入，Hard Attention会依概率Si来采样输入端的隐状态一部分来进行计算，而不是整个encoder的隐状态。为了实现梯度的反向传播，需要采用蒙特卡洛采样的方法来估计模块的梯度。

目前Soft Attention是研究热点。