@EggGump
2018-04-17T21:31:49.000000Z
字数 796
阅读 410
同义词发现算法论文
陆勇. 基于词典注释的汉语同义词自动识别[A]. 复旦大学计算机科学与工程系、上海市智能信息处理重点实验室.NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C].复旦大学计算机科学与工程系、上海市智能信息处理重点实验室:,2004:10.
对某个词汇W构建词汇子图: 如果在U词的定义中或者注释中出现V词,即词汇V用来解释词汇U,那么在图中就有一条从U指向V的一个箭头,整个词汇子图包含有指向W的词和W指向的词,
根据词汇子图构造邻接矩阵如果在图中存在一条从I到J的箭头,那么,A(I,J)=1,否则为0
在邻接距阵中,每一个词汇的信息相当于矩阵的一个向量,可通过计算向量距离来获得两词的相似度,如欧几里得,Cos
PageRank算法
PR(A)=(1-d)+d(PR(T1)/C(T1)+.....+PR(Tn)/C(Tn)
PR(A):词A的PageRank值
PR(Ti):词汇Ti的PageRank值,Ti是链向A的
C(Ti):词Ti的链出数量。
d:阻尼系数,取0-1之间。
计算次数为log(子图结点数)
每个词的初始PageRank值是1
对于给定的词:
1 先找到字典所有其指向的词和指向其的词形成一个子图。
2 对子图的邻接距阵进行操作或进行PageRank值计算
3 最后获得与给定词PageRank值最接近的一个或几个词作为同义词
- 优点:对于给定的词,如果有好的词典,可以精准找到它所有的近义词
- 缺点:构建词典子图花费大量时间,词典中没有的新概念不能很好地操作,只依赖于词典不够灵活