@songying
2019-03-19T11:55:15.000000Z
字数 1232
阅读 1042
阅读理解
本文提出新的模型: Gated-Attention Reader
数据集: CNN&Daily Mail, Who Did What
阅读理解模型成功的原因有以下两大因素:
1. Multi-hop architectures,模型能够 scan the document and the question iteratively for multiple passes.
2. 注意力机制,使得模型能 focus on appropriate subparts of the context document。
本模型将二者结合起来形成新的attention。
首先,依旧是先将Dcoument 与Query 转换为词向量,然后采用双向RNN(GRU) 来获得 Document 与query的上下文表示矩阵,表示如下:
Gated-Attention Module: 然后,在接下来计算中,我们要不断的迭代 D 与 X:
Answer Prediction
在Answer Prediction 阶段,先找到空白处位置的词的表示, 然后与 D^{(k)} 做内积,再进行softmax:
最后,再将相同词的概率合并: