[关闭]
@songying 2019-03-19T12:06:30.000000Z 字数 2260 阅读 1374

Attention-over-Attention Neural Networks for Reading Comprehension

阅读理解-蛮荒时代


Abstract

本文提出了Attention-over-Attention reader 模型。

该模型中采用了 N-best re-ranking 策略来再次对候选项进行选择。

数据集: CNN, Children's Book Test

Introduction

我们主要的贡献在于:

Attention-oevr-Attention Reader

1. Contextual Embedding

首先, 依旧是使用双向RNN(LSTM or GRU) 来获得 Document 与 Query 的上下文表示。 其中,无论是对 Document 还是 Query , 其获得的都是 上下文 Embedding 矩阵:

我们使用一下表示:

2. Pair-wise Matching Score

然后,我们计算 Pair-wise Matching Score,其实就是计算 Document 中第 i 个词 与 Query 中的第 j 个词的相似度或相关度:

3. Indivial Attentions

再然后,进行 Individual Attentions, 其实就是对矩阵 M 的每一列做 softmax, 其中,M的一列代表的是对于 Query 中的某个词与所有 Document 中词的相关度, 那么对每一列进行 softmax 的意思就是对于给定的一个 Query 词, 对 Document 中的每个词进行 Attention,这里称之为 query-to-document attention, 公式如下:

4. Attention-over-Attention

然后,进行 Attention-over-Attention, 其实就是对矩阵M的每一行做 softmax, 而 M 的一行表示的是对于 Document 中的某个词与所有 Query 中词的相关度,那么对每一行进行softmax 的意思就是对于给定的一个Document 词,对Query 中的每个词进行Attention, 这里称为 document-to-query attention, 公式如下:


然后, 对 求和平均来得到 query-level attention , 从直观上而言,这里是获得对于整个document,每个query的Attention value:

5. Final Predictions

最终,Final Predictions 将相同词的score 合并,得到每个词的score, 其实就是 Attention-Sum 里面提出的创新部分:

本模型可以说是花式Attention的一个典型代表了,其不仅仅考虑了query到document的attention,而且考虑了document 到 query 的attention,于是称为 attention over attention。 虽然无法解释其内部的玄学,但的确该机制在很多后续的模型中都有应用,效果也不错。

4. N-best Re-ranking 策略

我们在解码过程提取一个N-best 列表

我们将每个候选项填入句子空白处组成一个完整的句子, 然后我们通过上下文来检查选项。

候选者可以从多个方面来打分,文章中选择了三个方面:

  • Global N-gram LM:
  • Local N-gram LM:
  • Word-class LM:

得到feature的权重之后,我们计算每个特征的和,然后选择最终答案。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注