[关闭]
@songying 2019-03-18T16:07:34.000000Z 字数 2098 阅读 1427

A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task

阅读理解-蛮荒时代


仓库实现:
https://github.com/jojonki/CNN-Daily-Mail-Reading-Comprehension-Task -- keras

简介

数据集: CNN/Daily Mail, 提出了Standford Reader

博客内容

该模型是 Attentive Reader 延伸, 但在 Attention 的部分又有所不同。

很明显,该模型更加干净,简洁,且获得的效果是要比 Attentive Reader 好 8-10% 个点的。 我们来简单介绍一下二者的不同:

其中,第一点是性能获得很大提升的关键因素,而第2,3点的目的更多的是将模型简化。

目前,该模型只有 Theano 的实现,如果后续有时间的话,我会尝试用TensorFlow 重写一下,先立一个 Flag。

End to End Neural Network

我们的模型基于 attentive reader 模型,模型架构如下图所示:

1. Encoding

我们得到

在双向RNN中,我们采用GRU作为RNN单元。

2. Attention

在此步中,目的是为了比较 question embedding 和 所有的contextual embeddings,然后挑选与question相关的信息。

我们需要计算 表示的就是注意力的值,其中 取决于 与问题q的相关程度。

o 表示的是带有注意力机制的向量

3. Prediction:

该模型的主要改进

  1. 在计算question embedding和passage embedding的相关度,即attention值的时候,用bilinear term代替了tanh层,结果表明,用bilinear term能够有效地提升模型效果
  2. 第二个改进主要是对模型的简化,原有模型在得到了带attention的embedding o之后,用了一层非线性层对embedding o和question embedding进行结合,再做预测,实验结果表明,去掉该非线性层对模型效果影响不大
  3. 预测所用的词表只使用在passage中出现过的entity。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注