@songying 2018-07-21T12:51:32.000000Z 字数 295 阅读 1949

NewsQA: A Machine Comprehension Dataset

数据集

NewQA 提供了超过 10 万经过人工标注得到的问题-答案 (question-answer)对。这些问题和答案来自于美国 CNN 的 10,000 多篇新闻文章，答案还包括了相应文章以及文字段落。数据集的收集包含了 4 个阶段，旨在得到那些经过推理 (reasoning) 才能回答的问题。

文中的分析也支持了 NewsQA 的问题回答超出了简单的语言匹配和文本识别。最后文章测量了人类在这个数据集上的表现，并将其与几个神经模型进行了比较，机器与人类之间的差距 (0.198 in F1 score) 表明现有模型仍有很大的进步空间。

Abstract