[关闭]
@EggGump 2018-04-17T21:31:22.000000Z 字数 946 阅读 968

宋文杰,顾彦慧,周俊生,孙玉杰,严杰,曲维光.多策略同义词获取方法研究):

同义词发现算法论文

孙玉霞:字面相似度方法:忽略了语义
刘燚灵:利用百度百科和豆瓣中带有结
构标记的网页,构造HTML模板,挖掘词汇同义关系,未使用词林和CCD


多策略方法

  • 基于词典
    词林:含目标词的、编码末尾为“=”的词语集合,例如Cilin中“Ae07C01=渔民渔翁渔家渔夫渔父打鱼郎”,根据“=”可以得到“渔民 渔翁 渔家 渔夫 渔父 打鱼郎”构成的同义词集合
    CCD 会出来一个表,表中有行号,中文定义以及该定义下的同义词,可用孙玉霞的同义词过滤方法
  • 基于网页标签:
    利用网页查找所需的词,再在特定标签找到同义词,可在百度百科或汉词网上找。
  • 基于模式:DIPRE,Pantel->Espresso
    1.从词林或CCD获取关系同义词并人工校对获得同义词集合I,i={x,y}
    2.基于Web爬百科语料,搜包含I中同义词实例对i的句子,从而或得模式p,由下式得p的可信度r(p):
    上式定为式(1)
    其中,:实例对i的可信度,人工定义的初始为1,为所有模式与实例对之间互信息的最大值,r(p)取值是[0,1]。式(1)中,pmi(i,p)是实例i与模式p的互信息,由下式得到

    上式定为式(2)
    其中,为实例对和模式p共同出现的次数,*为通配符。当时认为p是可信模式。
    3.利用p可以获取百科中的新的同义词,新同义词对可信度定义为,可由下式得

    上式定义为式(3)
    P是可信模式集合,|P|是集合数量,时,新实例为可信的
    4.重复2,3直到获取了所有的同义词或模式。
    以上的人为适当调整。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注