[关闭]
@songying 2019-04-23T15:15:25.000000Z 字数 1355 阅读 1400

Dual Co-Matching Network for Multi-choice Reading Comprehension

RACE


Abstract

本文提出DCNN。

2. Model

1. Embedding Layer

文章采用 Bert 作为 Encoder 来分别对P, Q, A 进行 Embedding, 就像是使用 LSTM 进行上下文Embedding一样:


我们看到, 我们要分别采用6个 Bert 进行微调,这意味着对于该模型来说,显存一定是要足够大的,大致的推算一下,也是需要40G左右的显存的,这意味着至少需要 4 块以上的顶级显卡, 所以我说,NLP已经进入氪金时代。

2. Maching Layer

文章先采用注意力机制来获得 passage 与 answer 之间的注意力权重信息,然后再根据权重信息分别获得 passage, answer 的新的表示:


然后我们将 passage,answer 信息融合来获得最终的表示:

采用相同的注意力机制来融合 passage 与 question 之间的信息:

3. Aggregation Layer

为了获得最终的表示,文章对 S 的每行做最大池化操作


对于每一个候选答案 , 它对应最终的表示为 ,损失函数如下:

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注