[关闭]
@EggGump 2018-04-17T21:31:49.000000Z 字数 796 阅读 410

陆勇. 基于词典注释的汉语同义词自动识别[A].

同义词发现算法论文

陆勇. 基于词典注释的汉语同义词自动识别[A]. 复旦大学计算机科学与工程系、上海市智能信息处理重点实验室.NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C].复旦大学计算机科学与工程系、上海市智能信息处理重点实验室:,2004:10.

对某个词汇W构建词汇子图: 如果在U词的定义中或者注释中出现V词,即词汇V用来解释词汇U,那么在图中就有一条从U指向V的一个箭头,整个词汇子图包含有指向W的词和W指向的词,
根据词汇子图构造邻接矩阵如果在图中存在一条从I到J的箭头,那么,A(I,J)=1,否则为0
在邻接距阵中,每一个词汇的信息相当于矩阵的一个向量,可通过计算向量距离来获得两词的相似度,如欧几里得,Cos
PageRank算法


代表词汇S的PageRank值(即图中有多少词汇指向S)
同上
代表词汇S用来解释子图中其他词汇的次数

词汇子图的PageRank值计算:

PR(A)=(1-d)+d(PR(T1)/C(T1)+.....+PR(Tn)/C(Tn)
PR(A):词A的PageRank值
PR(Ti):词汇Ti的PageRank值,Ti是链向A的
C(Ti):词Ti的链出数量。
d:阻尼系数,取0-1之间。
计算次数为log(子图结点数)
每个词的初始PageRank值是1

流程:

对于给定的词:
1 先找到字典所有其指向的词和指向其的词形成一个子图。
2 对子图的邻接距阵进行操作或进行PageRank值计算
3 最后获得与给定词PageRank值最接近的一个或几个词作为同义词

  • 优点:对于给定的词,如果有好的词典,可以精准找到它所有的近义词
  • 缺点:构建词典子图花费大量时间,词典中没有的新概念不能很好地操作,只依赖于词典不够灵活
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注