@songying
2019-03-19T12:06:30.000000Z
字数 2260
阅读 1374
阅读理解-蛮荒时代
本文提出了Attention-over-Attention reader 模型。
该模型中采用了 N-best re-ranking 策略来再次对候选项进行选择。
数据集: CNN, Children's Book Test
我们主要的贡献在于:
首先, 依旧是使用双向RNN(LSTM or GRU) 来获得 Document 与 Query 的上下文表示。 其中,无论是对 Document 还是 Query , 其获得的都是 上下文 Embedding 矩阵:
我们使用一下表示:
然后,我们计算 Pair-wise Matching Score,其实就是计算 Document 中第 i 个词 与 Query 中的第 j 个词的相似度或相关度:
再然后,进行 Individual Attentions, 其实就是对矩阵 M 的每一列做 softmax, 其中,M的一列代表的是对于 Query 中的某个词与所有 Document 中词的相关度, 那么对每一列进行 softmax 的意思就是对于给定的一个 Query 词, 对 Document 中的每个词进行 Attention,这里称之为 query-to-document attention, 公式如下:
然后,进行 Attention-over-Attention, 其实就是对矩阵M的每一行做 softmax, 而 M 的一行表示的是对于 Document 中的某个词与所有 Query 中词的相关度,那么对每一行进行softmax 的意思就是对于给定的一个Document 词,对Query 中的每个词进行Attention, 这里称为 document-to-query attention, 公式如下:
最终,Final Predictions 将相同词的score 合并,得到每个词的score, 其实就是 Attention-Sum 里面提出的创新部分:
本模型可以说是花式Attention的一个典型代表了,其不仅仅考虑了query到document的attention,而且考虑了document 到 query 的attention,于是称为 attention over attention。 虽然无法解释其内部的玄学,但的确该机制在很多后续的模型中都有应用,效果也不错。
我们在解码过程提取一个N-best 列表
我们将每个候选项填入句子空白处组成一个完整的句子, 然后我们通过上下文来检查选项。
候选者可以从多个方面来打分,文章中选择了三个方面:
- Global N-gram LM:
- Local N-gram LM:
- Word-class LM:
Weight Tuning
论文采用 K-best MIRA 算法自动来调整各个features之间的权重
Re-scoring and Re-ranking
得到feature的权重之后,我们计算每个特征的和,然后选择最终答案。