@spiritnotes
2016-06-18T01:17:27.000000Z
字数 713
阅读 1523
NLP
读书笔记
DOING
语言学的目的是描述和解释我们的语言现象。
为了解释语言的结构,人们设计了一些规则来将语言表达结构化。人们总是扩展和改变规则,以满足他们遇到的语言交流的需要。
理性主义期望建立一种系统,在这个智能系统中通过手工编码大量的先验知识和推理机制,得以复制人类大脑中的语言能力。
经验主义假设大脑中存在认知能力,不是开始于细化的规则集,也不是程序集。而是具有联想、模式识别和概括的一般能力。
统计自然语言处理的主要工作是解决第一个问题
传统语言学将二直判断句子结构是否完好,而不管句子是否是人们习惯的表达方式或者句子是否有正确的语义。该方法提供的信息太少,而且对于非母语者,语法错误很正常,但其还是有其含义
语言中有很多非绝对现象,其和语言的演变历史有关。这种特性使得用概率来理解语言很有必要。
语言和认知是随机现象
统计模型的使用可以很好地解决歧义问题
词频
Zipf法则:一个词在语料中出现的频率和它的排列位置之间的关系成反比,有f*r=k,说话者用小的常用词表,听者用一个大的冷僻词表来减少他们各自的精力付出
语义数法则:说话者希望一个词表示所有意思,听者希望每个意思用不同词汇表示。 m正比于或
强法则:如果通过随机产生n个字符和一个空格来组成词语,则满足zipf原则,越短词越频繁出现,越长的词语越多