@songying
2019-06-10T16:22:04.000000Z
字数 1571
阅读 3604
数据集
本节中, 我们队现存的阅读理解任务数据集做一个简单的对比。
Race可以看做是MCTest的扩充版和难度版
CNN/Daily Mail
Childrens Book Test
Book Test
Who Did what
缺陷:简单, 且由于是自动生成, 噪音多。
SQuAD, NewQA, MSMARCO, TriviaQA.
问题的答案是article中的一个 text span,SQuAD, NewQA, MSMARCO分别来自于Wiki, CNN news 和 theBingsearchengine。 答案可能是多个片段, 采用F1, BLEU以及ROUGE来走评价指标。
Span-based 数据集的难点在于可能的答案片段常常是比较大的, 然而,将答案限制为上下文的答案片段可能是不符合实际的, 与人类是不相符的。 换句话说, 这种类型的数据集可能并不能对机器的阅读理解能力进行一个很好的评测。
有一些数据集从考试中提取,旨在模拟人类的评测。 如 the AI2 Elementary School Science Questions dataset, NTCIR QA Lab, CLEF QA Track。 然而, 这些task的数据对于深度学习来说并不充足。
RACE数据集是该类型的第一个大型数据集。
本段中我们将详细介绍Race数据集的细节。
RACE数据集从初中和高中的题集上采集, 因此,我采用RACE-M 来表示初中的数据, 用RACE-H表示高中的数据。 我们在 RACE-M 和 RACE-H分别采用5% 的数据来作为 dev set, %5作为 test set。
我们从上面两个图发现, RACE-H的 passage 和 vocabulary的长度是比 RACE-M的要长的, 而高年级的要比低年级的难很多。 然而, 需要注意的是,用来测试的文章的句子长度和复杂度其实是比新闻文章或wiki的文章要简单的。
我们将问题分为以下几种
我们将问题根据推理分类为: detail reasoning(细节推理), whole-picture understanding(文章全局理解), passage summarization(文章总结), attitude analysis(态度分析) 和 world knowledge(世界知识)。一个问题可能有多类。
网站: xkw.com