[关闭]
@songying 2019-04-23T15:05:49.000000Z 字数 2906 阅读 1777

Option Comparison Network for Multiple-choice Reading Comprehension

RACE


Abstract

现有的MCRC模型在比较选项之前会将每个选项分别压缩成一个固定维的表示。 然而,在详细阅读文章之前,我们通常会在多粒度级别对选项进行比较来获得更有效的结果。模仿人们,我们针对MCRC提出一个OCN, 该网络在word-level 比较选项来更好的识别它们之间的关系来帮助推理。

1. Embedding Layer: Feature Extraction

与 DCMN 不同的是,OCN 没有分别用Bert 来进行Embedding, 而是先将 三者采用 分隔符连接,然后再一起送入Bert, 注意,我们的RACE数据集有四个Option, 因此需要4个 Bert , 因此,跑不动, 卒。


这里有一个小问题, 为何作者不采用 DCMN 那样用 Bert 做独立的Embedding, 是机器不够?还是有意为之?

文章考虑到 question 的信息与 option 的信息是息息相关的,因此将二者连接起来,这为下一部分的 Option 之间的比较做准备。

Attention 机制

考虑到文章中在多个层中都使用了同一个Attention, 因此在此简单描述一下:


注意到,这个 Attention 与传统的Attention 差别不大, 可以与之前的对比一下:NLP中的 Attention 机制

2. Option Correlation Features Extraction

此部分是文章的创新所在,作者认为,选项与选项之间的比较是带有一些信息的,正如人在做阅读理解时也会反复的比较选项,才会最终确定答案。

首先,选项 与选项 之间的对比信息生成如下:


对于每个选项,我们要与其他3个选项分别比较,因此我们生成了三个这样的矩阵,然后将这三个对比信息融合:

最后,采用门机制将选项信息与选项比较信息结合起来,最终生成选项 的最终表示:

写到这,不由的感叹,这尼玛也太复杂了吧,感觉没有必要这么搞, 选项之间的比对信息的确有用,但这么做与DCNN相比的确太复杂,我觉得这块有优化的余地,哎,可惜机器不行啊,卒。

3. Article Rereading

文章最后将所有的信息综合, 重新对文本信息进行匹配阅读,这与传统的思路一样了。

首先, 将选项 的表示与Passage 信息结合, 注意到,此时选择 的表示中包含有:选项本身信息, 问题信息,选项对比信息, 最终我们生成对于选项 其各种信息综合后的结果:


最后,对信息进行综合:

4. Answer Prediction

对于 Option , 其最终信息表示如下:


那么,对于结果的预测为:

损失函数定义为:

3. Experiments

2. Training Details

Adam 优化器
epoch = 3 (base)
batch_size = 12 (base)
learning_rate = (base)

epoch = 5 (large)
batch_size = 24 (large)
learning_rate =

L2 = 0.01

article token = 400
question tokens = 30
option = 16

3. Experiment results

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注