@Wishes
2015-03-26T09:59:36.000000Z
字数 454
阅读 976
- 项目经验: NTCIR测评
项目人数/时间
:3/2014.3-2014.6
NTCIR是一个日本举办的关于自然语言处理的测评,测评方提供任务要求和必要的一些数据,参与队伍根据要求自己编写程序完成任务并提交结果,举办方评价所有结果并打分。由于难度很高,又是关于语言处理,细节不多说了,最终得分不高,但是我们参加的MobileClick任务提交结果的只有4支队伍。
我们的任务是从给定的2万个网页中提取英文,给定1000多个查询,需要找出每个查询相匹配的信息片段。我们使用的HtmlParser框架提取网页内容,去除了广告,超链接等;然后对每个网页提取短语,命名实体等信息片段,使用的是LingPipe框架(自然语言处理框架);最后使用向量空间模型,TF-IDF和余弦相似度对信息片段和查询求匹配值,排序得到最后结果。
整个项目中,我主要负责第1,2部分,信息检索的基础也是在这个过程中学的,并在后来的项目中得到使用,并且经常要读其他英文论文(老师要求的),有一定的英文阅读能力,并在当时的四级考试中超长发挥得到505分。