@songying
2019-03-26T21:45:14.000000Z
字数 816
阅读 1359
NLP
https://zhuanlan.zhihu.com/p/60025806
英文通过空格来切分单词,而中文需要专门的分词工具。
现在一些任务(机器翻译,自动摘要, 文本分类等)已经不需要使用分词,而是直接将字作为输入,神经网络可以自动学习其中的特征。 但是对于一些任务(关键词提取, 命名实体识别,搜索引擎等) 仍然需要分词。
此外,词与字一起输入,可以增强效果。
英文具有复杂的变形变换,如时态,主被动等,为了应对这些复杂的变换,英文NLP中需要词形还原与词干提取两个步骤。
词形还原: 因为英文单词有丰富的单复数、主被动、时态变换(共 16 种)等情况,在语义理解时需要将单词「恢复」到原始的形态从而让计算机更方便的进行后续处理。请注意词形还原通常还需要配合词性标注(pos-tag)一起来进行,以确保还原准确度,避免歧义发生。因为英文中存在一些多义词的情况。
词干提取:英文单词内部都是由若干个词素构成的。词素又分为词根(roots)和词缀(前缀 prefix 或后缀 suffix),而词根的原形称为词干(stems)。
中文中也有类似的偏旁部首,但提高并不大,其原因首先是常用汉字的数量远比英文单词要少,因为字少,每个汉字的意思多,这些汉字的含义通过上下文来获取的语义描述信息足够充分,拆分偏旁后额外再能添补的信息作用非常小。即便对罕见字来说偏旁确实能额外补充特征,但因为它们在日常文本中出现频次太少,对整体文本语义理解的作用很有限,只有在一些专业性文书的应用上可能起少量帮助。另一方面是汉子的演化使得偏旁部首并不能准确表达字的意思,可能会引入噪声。