@EggGump 2018-04-17T13:31:49.000000Z 字数 796 阅读 678

陆勇. 基于词典注释的汉语同义词自动识别[A].

同义词发现算法论文

陆勇. 基于词典注释的汉语同义词自动识别[A]. 复旦大学计算机科学与工程系、上海市智能信息处理重点实验室.NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C].复旦大学计算机科学与工程系、上海市智能信息处理重点实验室:,2004:10.

对某个词汇W构建词汇子图: 如果在U词的定义中或者注释中出现V词,即词汇V用来解释词汇U,那么在图中就有一条从U指向V的一个箭头,整个词汇子图包含有指向W的词和W指向的词,
根据词汇子图构造邻接矩阵如果在图中存在一条从I到J的箭头,那么,A(I,J)=1,否则为0
在邻接距阵中，每一个词汇的信息相当于矩阵的一个向量，可通过计算向量距离来获得两词的相似度,如欧几里得，Cos
PageRank算法

$r_{s,t}=\frac {P_s/\vert a_s \vert}{P_t}$

$P_s$ 代表词汇S的PageRank值（即图中有多少词汇指向S）

$P_t$ 同上

$\vert a_s \vert$ 代表词汇S用来解释子图中其他词汇的次数

词汇子图的PageRank值计算：

PR(A)=(1-d)+d(PR(T1)/C(T1)+.....+PR(Tn)/C(Tn)
PR(A):词A的PageRank值
PR(Ti):词汇Ti的PageRank值，Ti是链向A的
C(Ti):词Ti的链出数量。
d：阻尼系数，取0-1之间。
计算次数为log(子图结点数)
每个词的初始PageRank值是1

流程：

对于给定的词：
1 先找到字典所有其指向的词和指向其的词形成一个子图。
2 对子图的邻接距阵进行操作或进行PageRank值计算
3 最后获得与给定词PageRank值最接近的一个或几个词作为同义词

优点：对于给定的词，如果有好的词典，可以精准找到它所有的近义词

缺点：构建词典子图花费大量时间，词典中没有的新概念不能很好地操作，只依赖于词典不够灵活

陆勇. 基于词典注释的汉语同义词自动识别[A].

词汇子图的PageRank值计算：

流程：

内容目录

选择主题