@songying
2018-12-27T17:22:44.000000Z
字数 1658
阅读 2067
数据集
我们提出了COQA数据集 - 一个面向Conversational Question Answering systems. 我们的数据集包含127k的问题-答案对,来自7个领域。问题是conversational, 答案是free-form text。我们深入分析了CoQA,该数据集在指代关系与语义推理上有很大的挑战性。
排行榜: https://stanfordnlp.github.io/coqa/
在CoQA中,计算机必须先理解问这样,然后回答一系列对话问题。CoQA主要关注于三个方面:
Q5
,问题中仅仅有一个单词,这种简短的问题对人类来说是很容易的,但是对机器来说却很难。目前来说,还没有大型的阅读理解数据集能够像CoQA一样,下一个问题需要依靠以前问答历史。总的来说,CoQA有以下几个河西特征:
几乎一半的CoQA问题都是通过coreferences来回顾会话历史的,其中很大一部分问题需要进行语义推理,这对于仅依赖于词汇线索的模型来说是一个挑战。
给定一篇文章和一段对话,任务是回答对话中的下一个问题。对话中的每一轮都包含一个问题和一个答案。
为了回答 , 这需要依靠对话历史:。
本节回答以下三个问题:
- What makes the CoQA dataset conversational compared to existing reading comprehension datasets like SQuAD?
- How does the conversation flow from one turn to the other?
- What linguistic phenomena do the questions in CoQA exhibit?