@songying
2018-10-19T17:41:07.000000Z
字数 850
阅读 1403
deep-learning
[1] Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
GRU 有两个门: 重置门 与更新门 。
- 重置门决定了如何将新的输入信息与前面的记忆相结合
- 更新门定义了前面记忆保存到当前时间步的量
如果我们将重置门设置为 1,更新门设置为 0,那么我们将再次获得标准 RNN 模型。
更新门与重置门的特殊之处在于:它们能够保存长期序列中的信息,且不会随时间而清除或因为与预测不相关而移除。
我们看到,GRU中每一时刻的输入为 , 每一刻的只有一个输出 。我们将GRU的结构提取出来有:
- : t时刻的输入向量
- : 上一时刻的输出
更新门帮助模型决定到底要将多少过去的信息传递到未来,或到底前一时间步和当前时间步的信息有多少是需要继续传递的。这一点非常强大,因为模型能决定从过去复制所有的信息以减少梯度消失的风险。
重置门主要决定了到底有多少过去的信息需要遗忘
可以看到,这个公式与上面的公式是一样的,只是参数不同而已。
新的记忆内容将使用重置门储存过去相关的信息
该向量将保留当前单元的信息并传递到下一个单元中。
- GRU 有两个门(重置门与更新门),而 LSTM 有三个门(输入门、遗忘门和输出门)
- GRU 并不会控制并保留内部记忆(),且没有 LSTM 中的输出门。
- LSTM 中的输入与遗忘门对应于 GRU 的更新门,重置门直接作用于前面的隐藏状态
- 在计算输出时并不应用二阶非线性。