@ShawnNg
2016-12-14T22:04:07.000000Z
字数 5248
阅读 1922
深度学习
QA
Hai Wang, Takeshi Onishi, Kevin Gimpel, David McAllester
Toyota Technological Institute at Chicago
本文中作者认为最近提出的各种attention based readers 可以分为两类,进行了全面的总结,并且作者从数学层面分析了两类Reader的相关性。
这种Readers是最先出现的,包括Memory Networks,Attentive Reader,Stanford Reader等
表示paragraph的词向量序列,。
表示question的词向量序列。
biLSTM(s)表示双向LSTM的hidden state序列。
fLSTM(s),bLSTM(s)分别表示前向LSTM和后向LSTM的hidden stae序列。
表示concatenation。
接下来的可以看作是Attention机制:
a表示答案,q表示问题,p表示段落线索,表示问题候选集。
表示问题的output embedding,和属于不同的向量空间。
Stanford Reader就是从Attentive Reader得来的。
它有多层双向GRU。
使用更精密的方法计算attention,表示双向GRU的hiddent state序列中的第个向量。
aggregation readers在匿名化的数据中表现的也不错,所以我们猜想aggregation readers中的包含了一定的pointer信息,作者认为和有以下关系:
作者还认为attention 和匿名化后的ID顺序无关,两个具有不同ID顺序的相同文档,应该具有相同的attention,。因此认为包含与ID相关的内容,也包含与ID无关的内容:
也就是等价于,同时作者也用数据来证明了:
CNN & DailyMail
论文:Teaching Machines to Read and Comprehend
数据来自CNN和Daily Mail新闻,文章中高亮显示而且挖空的就是问题。为了防止使用外界知识,将命名实体都用ID替换,给出答案候选集。
Who-did-What(WDW)
论文:Who did What: A Large-Scale Person-Centered Cloze Dataset
数据来自LDC English Gigaword newswire copus。该数据集为了防止文章摘要被使用,每一个问题都从两个独立的文章中生成,一篇用来做Context,一篇用来挖空作为问题。该数据集为了不像CNN&DailyMail那样将实体匿名,所有的问题都是人名实体。而且使用了一些简单的baselines来筛选掉那些容易解决的问题。
Children's Book Test(CBT)
论文:The goldilocks principle: Reading childrens books with explicit memory representations
数据来自一个儿童读物,每个问题都是从中挑选出21条连续的句子,将前20条作为Context,将第21条挖空作为问题。
SQuAD
论文:SQuAD: 100,000+ Questions for Machine Comprehension of Text
bAbI
论文:Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks
在我看来这是一篇很全面的综述,作者全面总结了最近出现的各种Readers,对开展机器阅读方面的研究有一个很好的参考。但是我很好奇为什么这里没有提到Dynamic Memory Networks,但是我觉得不好归类吧,毕竟Dynamic Memory Networks的Answers是通过RNN来decode而得来的。