[关闭]
@EggGump 2018-07-02T15:48:33.000000Z 字数 251 阅读 442

NLP

中文文本自动分词


面对问题:
1. 分词歧义
2. 未登录词识别
3. 什么是中文的“词”

方法:

最大匹配法:正向,逆向

问题:
存在分词错误
无法发现分词歧义
局部修改1:
增加歧义词表,排歧规则
IF W = "个人", WLeft = 数词 THEN W = "个/ 人/" ENDIF
局部修改2:
增加“回溯”
但是还是有很多问题

最短路径法:

基本思想:在词图上选择一条词数最少的路径
优点:好于单向的最大匹配方法
最大匹配:独立自主 和平 等 互利 的 原则 (6 words)
最短路径:独立自主 和 平等互利 的 原则 (5 words)
缺点:同样无法解决大部分交集型歧义

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注