@killa
2015-07-25T03:08:34.000000Z
字数 975
阅读 1250
英文问答对数据爬取调研工作
2015.07.24
APEX
QA
QAPair
某些文章使用到的数据集
- Large-scale Semantic Parsing without Question-Answer Pairs:Free917、WebQuestion
- Modeling Semantic Relevance for Question-Answer Pairs
in Web Social Communities:自己爬的百度知道,未公开
关于生成问答对数据的文章
- Finding Question-Answer Pairs from Online Forums,但是并没有给出数据集
- A questioneanswer pair (QAP) database integrated with websites to answer complex questions submitted to the Regional Medicines Information and Pharmacovigilance Centres in Norway (RELIS): a descriptive study,同样没有给出数据
英文问答社区网站
- Answers.com:比较简练的问答数据,有些答案如果是一个词或者词组,虽然回答可能有很多文字,但是重点的文字会用加粗表示出来。比如:"Who does Dale Earnhardt Jr. drive for?"的回答:"Dale Earnhardt Jr. currently drives for Hendrick Motorsports." 但只是少数。一部分回答都可以用一个词概括,但是这些回答往往都包含了一些用于丰富表达的废话。爬取中怎么判断是否可以用一个词回答和哪个词是答案是一个重点。
- Quora.com/:大部分问题都是怎么办等复杂的问题,很难用一个词去回答,有点像知乎。爬取的重点在于挑出那些可以用一个词回答的问题。
- Yahoo Answer:也是一个偏重于像知乎的网站,关键在于它自己并没有将已回答与在等待回答区分开,爬取过程中需要自己判断是否已回答。
已有数据集
- WebQuestions:Json格式储存,以列表的形式给出答案
- Free917:Json格式储存,答案没有明确给出,给出的是Freebase的查询语句或是目录一样的东西。
- QALD训练数据:答案有些以URL给出,有些以文本给出,需要对其进行处理统一格式。有些没有答案。