@EggGump
2018-07-02T15:48:33.000000Z
字数 251
阅读 442
中文文本自动分词
面对问题:
1. 分词歧义
2. 未登录词识别
3. 什么是中文的“词”
方法:
问题:
存在分词错误
无法发现分词歧义
局部修改1:
增加歧义词表,排歧规则
IF W = "个人", WLeft = 数词 THEN W = "个/ 人/" ENDIF
局部修改2:
增加“回溯”
但是还是有很多问题
基本思想:在词图上选择一条词数最少的路径
优点:好于单向的最大匹配方法
最大匹配:独立自主 和平 等 互利 的 原则 (6 words)
最短路径:独立自主 和 平等互利 的 原则 (5 words)
缺点:同样无法解决大部分交集型歧义