[关闭]
@songying 2019-03-26T21:45:14.000000Z 字数 816 阅读 1359

NLP: 中英文异同

NLP


https://zhuanlan.zhihu.com/p/60025806

1. 分词方式不同

英文通过空格来切分单词,而中文需要专门的分词工具。

现在一些任务(机器翻译,自动摘要, 文本分类等)已经不需要使用分词,而是直接将字作为输入,神经网络可以自动学习其中的特征。 但是对于一些任务(关键词提取, 命名实体识别,搜索引擎等) 仍然需要分词。

此外,词与字一起输入,可以增强效果。

2. 英文语素与中文偏旁

英文具有复杂的变形变换,如时态,主被动等,为了应对这些复杂的变换,英文NLP中需要词形还原与词干提取两个步骤。

中文中也有类似的偏旁部首,但提高并不大,其原因首先是常用汉字的数量远比英文单词要少,因为字少,每个汉字的意思多,这些汉字的含义通过上下文来获取的语义描述信息足够充分,拆分偏旁后额外再能添补的信息作用非常小。即便对罕见字来说偏旁确实能额外补充特征,但因为它们在日常文本中出现频次太少,对整体文本语义理解的作用很有限,只有在一些专业性文书的应用上可能起少量帮助。另一方面是汉子的演化使得偏旁部首并不能准确表达字的意思,可能会引入噪声。

3. 词性标注方法的差异

4. 标点符号和字体特征

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注