[关闭]
@songying 2019-03-19T12:32:40.000000Z 字数 6149 阅读 1049

阅读理解:洪荒时代

博客文章


前言

转眼,春招已至,感觉自己还是个菜鸡,鸡生无望啊。 其实,主要是感觉到以前看的好多论文细节记得不是很清楚, 觉得有必要将这些论文做一个小规模的综述,一方面是考虑到造福后来者,另一方面也是面试准备,我觉得我还是有点东西的啊!!!

本文主要针对的是较老的模型,但很经典,其主要数据集为 CNN&Dailymail, 我还是很推荐一看的,因为现在阅读理解领域的复杂模型也有很多用到了这些论文中的思想,大多大同小异,很有助于启发思路。

基线模型 -- Deep LSTM Reader [1]

Deep LSTM Reader 思想其实很简单,我们的输入为: document ||| queryquery ||| document ,两者区别不大,||| 作为 documentquery 的分隔符。 模型直接采用一个两层的LSTM 来处理documentquery转化后的词向量, 然后直接将双层LSTM的输出作为接下来模型 output layer 的输入,然后预测就完事了。

怎么样,是不是很简单,很粗暴,这就是最初的基线模型,真的不要太简单。

该模型的缺陷也很明显,首先, passage 与 query 能否一起做上下文处理? 这样不会导致内部信息紊乱?其次, 将passage 与 query 压缩为一个固定长度的向量,这里面会有很多的信息被损失掉了。最后,实在太粗糙了。。。

基线模型 -- Attentive Reader [1]

Attentive Reader 就有点常规模型的样子了。

我们看到,与上一个模型相比,该模型就要好很多了,至少从思想上挑不出什么毛病,后续的模型很多都是从该模型改进而成。

但可能会存在一个问题,如果 query 的长度也很长,那么压缩成一个向量,其信息的损失不得不考虑进去。

基线模型:Impatient Reader [1]

Impatient Reader 可以是有点矫枉过正的意思,论文里的描述有些粗糙。 我简单介绍一下思想:

从上面的公式,我们也看到,这个模型相比要复杂很多,但真的有必要吗,我是觉得得不偿失的。 而最终的实验也表明, Impatient Reader 与 Attentive Reader 相比, 其结果相差并不大,且谁好谁坏还不一定呢。

Standford Reader[2]

该模型是 Attentive Reader 延伸, 但在 Attention 的部分又有所不同。

很明显,该模型更加干净,简洁,且获得的效果是要比 Attentive Reader 好 8-10% 个点的。 我们来简单介绍一下二者的不同:

其中,第一点是性能获得很大提升的关键因素,而第2,3点的目的更多的是将模型简化。

目前,该模型只有 Theano 的实现,如果后续有时间的话,我会尝试用TensorFlow 重写一下,先立一个 Flag。

Attention Sum Reader [3]

其实,该模型与上面的Standford Reader 很像,但加了一个小 trick。

比较 Standford Reader 与 Attention Sum Reader, 我们发现,二者在计算Attention 以及输出层有较大的差别,Attention Sum Reader 显得更加简洁。 但是,分析一下那个Attention Sum 操作, 其源于作者观察到答案更多偏爱出现次数较多的词,这说明,该 trick 是任务偏好的,并没有很广泛的应用价值。

最后,从后续的很多阅读理解文章来看,这篇文章算是价值最低的了,没有什么创新,Trick 有点取巧的意思,不推荐精读。

Attention-over-Attention [4]

Attention-over-Attention 这篇文章质量很高,在后续的很多模型中都有使用,创新度也很高,值得精读。

本模型可以说是花式Attention的一个典型代表了,其不仅仅考虑了query到document的attention,而且考虑了document 到 query 的attention,于是称为 attention over attention。 虽然无法解释其内部的玄学,但的确该机制在很多后续的模型中都有应用,效果也不错。

在Attention-over-Attention 还提出了 N-best Re-ranking 策略 , 这里就不赘述了,可以看看原论文。

Gated-Attention Reader [5]

首先,值得一提的是,该文章的Related Work 十分值得一读,很清晰,也很完整,对于一些经典模型都有提及。

最后

一不小心,文章写的又臭又长,本意是将阅读理解早期的经典模型一网打尽,但奈何,模型太多,一旦展开,怕是就没几个人看了,因此,蛮荒时代到此结束,如果接下来有时间的话或者发现某个模型很屌但我没有涉及的话,会出一个番外。

接下来会花几天时间总结一下,阅读理解的井喷时代,主要以SQuAD 数据集为主,敬请期待。

大哥大嫂,别光收藏啊,点个赞也好啊。

Reference

[1] Teaching Machines to Read and Comprehend

[2] A thorough examination of the cnn/dailymail reading comprehension task.

[3] Text understanding with the attention sum reader network

[4] Attention-over-Attention Neural Networks for Reading Comprehension

[5] Gated-attention readers for text comprehension

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注