[关闭]
@songying 2018-10-19T17:41:07.000000Z 字数 850 阅读 1403

GRU 单元

deep-learning


paper

[1] Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

详解

GRU 有两个门: 重置门 与更新门

  • 重置门决定了如何将新的输入信息与前面的记忆相结合
  • 更新门定义了前面记忆保存到当前时间步的量

如果我们将重置门设置为 1,更新门设置为 0,那么我们将再次获得标准 RNN 模型。

GRU 原理

更新门与重置门的特殊之处在于:它们能够保存长期序列中的信息,且不会随时间而清除或因为与预测不相关而移除。

GRU

我们看到,GRU中每一时刻的输入为 , 每一刻的只有一个输出 。我们将GRU的结构提取出来有:

1. 更新门:z

  • : t时刻的输入向量
  • : 上一时刻的输出

更新门帮助模型决定到底要将多少过去的信息传递到未来,或到底前一时间步和当前时间步的信息有多少是需要继续传递的。这一点非常强大,因为模型能决定从过去复制所有的信息以减少梯度消失的风险。

2. 重置门: r

重置门主要决定了到底有多少过去的信息需要遗忘

可以看到,这个公式与上面的公式是一样的,只是参数不同而已。

3. 当前记忆: h'

新的记忆内容将使用重置门储存过去相关的信息

4. 当前时间步的最终记忆:h

该向量将保留当前单元的信息并传递到下一个单元中。

与lstm的区别

  • GRU 有两个门(重置门与更新门),而 LSTM 有三个门(输入门、遗忘门和输出门)
  • GRU 并不会控制并保留内部记忆(),且没有 LSTM 中的输出门。
  • LSTM 中的输入与遗忘门对应于 GRU 的更新门,重置门直接作用于前面的隐藏状态
  • 在计算输出时并不应用二阶非线性。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注