@lokvahkoor 2020-05-09T01:46:37.000000Z 字数 2301 阅读 1997

LSTM / GRU / Attention / Transform

NLP

LSTM / GRU / Attention / Transform
- LSTM
  - 计算过程
  - peephole connections
- GRU
- 双向RNN
- Attention
- Transformer
- Bert

LSTM

LSTM结构示意

LSTM有两个传输状态，一个 $c^t$ （cell state），和一个 $h^t$ （hidden state）

$c^t$ 保存模型的长期记忆，在训练过程中改变的速度较慢，而 $h^t$ 在训练过程中变化的速度则比较快。

计算过程

首先使用LSTM的当前输入 $x_t$ 和上一个状态传递下来的 $h_{t-1}$ 拼接计算得到四个中间变量：

$z = tanh(W\cdot[h_{t-1},x_t] + b)$
$z^i = \sigma(W_i\cdot[h_{t-1},x_t] + b_i)$
$z^f = \sigma(W_f\cdot[h_{t-1},x_t] + b_f)$
$z^o = \sigma(W_o\cdot[h_{t-1},x_t] + b_o)$

这里的 $i,f,o$ 分别代表input gate, foget gate, output gate。运算符 $[a,b]$ 表示把a和b拼接成一个大的矩阵。

接下来：

LSTM计算过程

上图中 $\bigodot$ 代表Hadamard Product，也就是操作矩阵中对应的元素相乘。运算符 $+$ 表示矩阵加法。

首先， $z^f$ 作为遗忘门控，筛选上一个 $c^{t-1}$ 中哪些内容需要遗忘。

接着， $z^i$ 作为输入门控，对模型输入 $z$ 中的内容进行筛选，然后把筛选后的结果合并到 $c^t$ 中。

最后，使用 $tanh()$ 对 $c^t$ 进行放缩，然后经输出门控 $z^o$ 过滤，再通过一个全链接layer，得到模型输出。

peephole connections

在原本 $[h_{t-1},x_t]$ 拼接的基础上，再拼上cell state，即：

peephole计算示意

这样使得各个门结构可以看到cell state中的信息，在某些场景下提高了模型训练效果

GRU

由于LSTM的参数过多，所以其训练难度相对较大。因此，我们往往会使用效果和LSTM相当但参数更少的GRU来构建大训练量的模型。

双向RNN

论文：Bidirectional recurrent neural networks

u=199233699,1108022898&fm=173&app=49&f=JPEG.jpg-17.8kB

由于模型在理解句子时，常常需要完整的句子信息（既包含输入词前面的内容，也包含输入词后面的内容），因此双向RNN诞生了。

双向RNN有两种类型的连接，一种是向前的，这有助于我们从之前的表示中进行学习，另一种是向后的，这有助于我们从未来的表示中进行学习。

正向传播分三步完成：

我们从左向右移动，从初始时间步骤开始计算值，一直持续到到达最终时间步骤为止；
接我们从右向左移动，从最后一个时间步骤开始计算值，一直持续到到达最终时间步骤为止；
最后我们根据刚才算得的两个方向的 $h_t$ ，来计算模型的最终输出

v3deg9eg79.png-169.9kB

这里的分号代表把两个向量连接在一起

vkkonaid8r.png-217.4kB

Attention

论文：Attention Is All You Need

CS224n 从机器翻译到Attention 这个从45:28开始看

基于RNN的机器翻译模型存在一个问题，就是模型在翻译时依赖于输入序列最后传递的隐藏层参数（如下图中的 $h_4$ ），如果前面输入的句子是个长句，则模型在翻译时很容易遗忘前面输入的句子。

15573329-25bdb43b18fbd18f.png-52.6kB

Attention机制让模型在翻译时可以读到输入序列的所有隐藏层状态( $h_1,h_2,h_3,h_4$ )并且自由地选择哪些是它需要关注的东西，因此在一定程度上解决了上述问题。

360截图175711226567100.png-265.2kB

因此，我们可以说，attention机制使得翻译系统可以利用更多的上下文信息（数据也证明了这一点，因为带有attention的模型在长句的翻译上表现得更加出色）

360截图175711188610784.png-422.8kB

self-attention机制可以理解为一个新的layer，它和RNN一样，输入一个sequence，输出一个sequence：

微信截图_20200509085829.png-236kB

它出自谷歌2017年发布的paper：Attention Is All You Need

那么它具体是怎么工作的呢？

微信截图_20200509090621.png-299.7kB

首先， $[x^1, x^2, ..., x^n]$ 是一串输入序列，对于每一个 $x^i$ ，我们让它通过一个全链接层得到embedding： $a^i$ ，也就是 $a^i = Wx^i$ , 接下来，让 $a^i$ 分别乘以三个不同的矩阵 $W^q$ , $W^k$ , $W^v$ 得到 $q^i$ , $k^i$ , $v^i$ 三个不同的向量，它们分别代表query, key和information to be extracted

接下来，拿每一个 $q$ 对每一个 $v$ 做attention，以 $q^1$ 为例：

微信截图_20200509092324.png-227.7kB

这里展示的 $a_{1,i}=q^1\cdot k^i/\sqrt{d}$ 只是一种attention的做法（Scaled Dot-Product Attention），除此之外，还有很多种计算Attention的方法，包括：

scores.png-39.1kB

它们有一个共同的特征：都是吃两个向量，然后输出一个值，代表由这两个向量计算出的得分

接下来，让得到的 $[a_{1,1},...,a_{1,n}]$ 通过一个softmax layer，得到 $[\hat{a}_{1,1},...,\hat{a}_{1,n}]$ :

微信截图_20200509093214.png-202.6kB

然后，我们把 $\hat{a}_{1,i}$ 和每一个 $v^i$ 相乘，并把结果累加起来，得到 $b^1 = \sum_i a_{1,i}v^i$ :

微信截图_20200509093828.png-202.5kB

以此类推，得到的 $[b^1, b^2,..,b^n]$ 就是self-attention的输出序列了。与一般的RNN不同的是，模型输出的每一个 $b^i$ 都考虑了从输入序列 $[x^1, x^2,...,x^n]$ 中获取的全部信息。

Transformer

Bert

参考：