@killa 2015-07-25T03:08:34.000000Z 字数 975 阅读 1250

英文问答对数据爬取调研工作

2015.07.24

`APEX` `QA` `QAPair`

某些文章使用到的数据集

Large-scale Semantic Parsing without Question-Answer Pairs：Free917、WebQuestion
Modeling Semantic Relevance for Question-Answer Pairs
in Web Social Communities：自己爬的百度知道，未公开

关于生成问答对数据的文章

Finding Question-Answer Pairs from Online Forums，但是并没有给出数据集
A questioneanswer pair (QAP) database integrated with websites to answer complex questions submitted to the Regional Medicines Information and Pharmacovigilance Centres in Norway (RELIS): a descriptive study，同样没有给出数据

英文问答社区网站

Answers.com:比较简练的问答数据，有些答案如果是一个词或者词组，虽然回答可能有很多文字，但是重点的文字会用加粗表示出来。比如："Who does Dale Earnhardt Jr. drive for?"的回答："Dale Earnhardt Jr. currently drives for Hendrick Motorsports." 但只是少数。一部分回答都可以用一个词概括，但是这些回答往往都包含了一些用于丰富表达的废话。爬取中怎么判断是否可以用一个词回答和哪个词是答案是一个重点。
Quora.com/:大部分问题都是怎么办等复杂的问题，很难用一个词去回答，有点像知乎。爬取的重点在于挑出那些可以用一个词回答的问题。
Yahoo Answer:也是一个偏重于像知乎的网站，关键在于它自己并没有将已回答与在等待回答区分开，爬取过程中需要自己判断是否已回答。

已有数据集

WebQuestions：Json格式储存，以列表的形式给出答案
Free917：Json格式储存，答案没有明确给出，给出的是Freebase的查询语句或是目录一样的东西。
QALD训练数据：答案有些以URL给出，有些以文本给出，需要对其进行处理统一格式。有些没有答案。

内容目录

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注