@EggGump
2018-04-17T21:31:22.000000Z
字数 946
阅读 968
同义词发现算法论文
孙玉霞:字面相似度方法:忽略了语义
刘燚灵:利用百度百科和豆瓣中带有结
构标记的网页,构造HTML模板,挖掘词汇同义关系,未使用词林和CCD
- 基于词典
词林:含目标词的、编码末尾为“=”的词语集合,例如Cilin中“Ae07C01=渔民渔翁渔家渔夫渔父打鱼郎”,根据“=”可以得到“渔民 渔翁 渔家 渔夫 渔父 打鱼郎”构成的同义词集合
CCD 会出来一个表,表中有行号,中文定义以及该定义下的同义词,可用孙玉霞的同义词过滤方法- 基于网页标签:
利用网页查找所需的词,再在特定标签找到同义词,可在百度百科或汉词网上找。- 基于模式:DIPRE,Pantel->Espresso
1.从词林或CCD获取关系同义词并人工校对获得同义词集合I,i={x,y}
2.基于Web爬百科语料,搜包含I中同义词实例对i的句子,从而或得模式p,由下式得p的可信度r(p):
上式定为式(1)
其中,:实例对i的可信度,人工定义的初始为1,为所有模式与实例对之间互信息的最大值,r(p)取值是[0,1]。式(1)中,pmi(i,p)是实例i与模式p的互信息,由下式得到
上式定为式(2)
其中,为实例对和模式p共同出现的次数,*为通配符。当时认为p是可信模式。
3.利用p可以获取百科中的新的同义词,新同义词对可信度定义为,可由下式得
上式定义为式(3)
P是可信模式集合,|P|是集合数量,时,新实例为可信的
4.重复2,3直到获取了所有的同义词或模式。
以上的和人为适当调整。