@songying
2019-03-18T16:57:55.000000Z
字数 691
阅读 971
阅读理解-蛮荒时代
其实,该模型与上面的Standford Reader 很像,但加了一个小 trick。
首先,采用双向 GRU 分别对 Document 与 Question 进行 Embedding; 对于Document, 我们获得了一个上下文Embedding 矩阵 f ;对于 Question, 我们获得了一个 sentence-level 句子向量g。
然后,计算 Document 中每个词与 Question 的相关度,这里采用点积的方式来做:
最后,考虑到 Document 中同一个词可能会出现多次,因此这里将相同词的注意力权重相加得到该词最终的注意力权重。
最后,我们从实体选项中选择 Attention weight 最高的作为答案。
比较 Standford Reader 与 Attention Sum Reader, 我们发现,二者在计算Attention 以及输出层有较大的差别,Attention Sum Reader 显得更加简洁。 但是,分析一下那个Attention Sum 操作, 其源于作者观察到答案更多偏爱出现次数较多的词,这说明,该 trick 是任务偏好的,并没有很广泛的应用价值。
最后,从后续的很多阅读理解文章来看,这篇文章算是价值最低的了,没有什么创新,Trick 有点取巧的意思,**不推荐精读。