[关闭]
@songying 2019-01-21T16:38:43.000000Z 字数 2350 阅读 1982

RNN vs LSTM vs GRU


前言

本文的目的不在于讲述基础的公式原理等,而是从全局的角度分析各个RNN及其变体的优劣,最主要的是分析 LSTM 与 GRU 的优劣以帮助我们合理选择。话不多说,let fuck !

从传统 RNN 讲起

RNN 是序列模型,这意味着通常来说 RNN 的单元数都是比较多的,随之而来的就是梯度消失,梯度爆炸问题 [1] , 这使得RNN 对长期的依赖关系不敏感(因为梯度消失了),其实就是对长期记忆的丢失。

具体到NLP领域中,通常我们会在 Embedding 层采用双向 LSTM,GRU 对文本进行扫描来获得每个词的上下文表示, 如果我们采用传统的RNN,这就意味着句子的第一个单词对句子最后一个单词不起作用了,这明显是有问题的。

其实传统RNN还有一个小问题, 我们假设在没有梯度消失的情况下,传统的 RNN 真的能很好记住长期记忆吗? 其实依旧有可能不行,因为长期记忆一些信息会被短期记忆掩盖。 以人阅读文章举例来说,当你阅读一段文本,看到结尾时,你能记得多少开始的内容,记得多少结尾的内容呢? 很明显,你对结尾内容记忆清晰,对开头内容记忆模糊。

基于这两个问题,LSTM 提供了很好的解决方案。

LSTM 怎么做的呢?

LSTM 分别采用两大策略来解决上述的缺点。首先,针对梯度消失问题,采用门机制来解决 [1],效果非常好。 而对于短期记忆覆盖长期记忆的问题, LSTM 采用一个 cell state 来保存长期记忆, 再配合门机制对信息进行过滤,从而达到对长期记忆的控制。

其实理解LSTM 的关键就在于理解门机制与两个状态 的更新,我们分别来谈一谈。

首先,我们要先理解 的本质, 本质上是 时刻的全局信息,而 表示的是在 时刻的全局信息的影响下, 当前 t 时刻的上下文表示。

具体到公式中,我们看到 本质是先将 经过 tanh 激活函数压缩为 (-1,1)之间的数值,然后再通过输出门 进行过滤,来获得当前单元的上下文信息。这意味着当前时刻的上下文信息 不过是全局信息 的一部分信息。

而对于全局信息 , 其是由 上一时刻全局信息 与当前时刻信息 通过输入门与遗忘门结合而成的。

GRU

GRU 是RNN的另一种变体,其与LSTM 都采用了门机制来解决上述问题,不同的是GRU可以视作是LSTM的一种简化版本。我们来对比一下 GRU 与 LSTM 的公式,

那么从公式上看,我们发现 GRU 抛弃了 lstm 中的 ,它认为既然 中已经包含了 中的信息了,那还要 做什么,于是,它就把 干掉了。 然后,GRU 又发现,在生成当前时刻的全局信息时,我当前的单元信息与之前的全局信息是此消彼长的关系,直接用 替换 ,简单粗暴又高效 。

LSTM 与 GRU [5]

这里归纳一下 LSTM 与 GRU 的区别:

which one?

首先,可以确定的一件事是带有门机制的 RNN 普遍要比传统的RNN表现更佳,目前,很少有实验或论文来采用普通RNN来作为基本的单元了。

对于 LSTM 与 GRU 而言, 由于 GRU 参数更少,收敛速度更快,因此其实际花费时间要少很多,这大大加速了我们的迭代过程。 但是要注意的是,二者之间孰优孰劣并没有定论,这要依据具体的任务和数据集而定,而实际上,二者之间的performance 差距往往并不大,远没有调参所带来的效果明显,与其争论LSTM 与GRU 孰优孰劣, 不如在RNN的激活函数(如将tanh改为tanh变体)和权重初始化上功夫。

一般来说,我会选择GRU作为基本的单元,因为其收敛速度快,可以加速试验进程,快速迭代,而我认为快速迭代这一特点很重要。如果实现没办法,才会尝试将 GRU 换为 LSTM,看看有没有什么惊喜发生。

最后

本文对 GRU 和 LSTM 进行了更深入的探讨,讨论了二者之间的区别以及所带来的变化。值得一提的是,由于RNN是序列模型,其无法并行,因此一般训练起来相当耗时。如果效果不好,可以试试 Transformer,可并行,效果一般会比 RNN要好一些。

Reference

RNN 的梯度消失问题

Supervised Sequence Labelling with Recurrent Neural Networks

LSTM:RNN最常用的变体

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注