@aliasliyu4
2017-01-17T15:25:50.000000Z
字数 1522
阅读 1600
语义分析的最终目的是理解句子表达的真实语义。但是用什么形式来表示语义一直没有能够很好的解决。语义角色标注是比较成熟的浅层语义分析技术。给定句子中的一个谓词,语义角色标注的任务就是从句子中标注出这个谓词的施事、受事、时间、地点等参数。语义角色标注一般都在句法分析的基础上完成,句法结构对于语义角色标注的性能至关重要。
情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为 利用一些情感得分指标来量化定性数据的方法。尽管情绪在很大程度上是主观的,但是情感量化分析已经有很多有用的实践,比如企业分析消费者对产品的反馈信 息,或者检测在线评论中的差评信息。
最简单的情感分析方法是利用词语的正负属性来判定。句子中的每个单词都有一个得分,乐观的单词得分为 +1,悲观的单词则为 -1。然后我们对句子中所有单词得分进行加总求和得到一个最终的情感总分。很明显,这种方法有许多局限之处,最重要的一点在于它忽略了上下文的信息。例 如,在这个简易模型中,因为“not”的得分为 -1,而“good”的得分为 +1,所以词组“not good”将被归类到中性词组中。尽管词组“not good”中包含单词“good”,但是人们仍倾向于将其归类到悲观词组中。
另外一个常见的方法是将文本视为一个“词袋”。我们将每个文本看出一个1xN的向量,其中N表示文本词汇的数量。该向量中每一列都是一个单词, 其对应的值为该单词出现的频数。例如,词组“bag of bag of words”可以被编码为 [2, 2, 1]。这些数据可以被应用到机器学习分类算法中(比如罗吉斯回归或者支持向量机),从而预测未知数据的情感状况。需要注意的是,这种有监督学习的方法要求 利用已知情感状况的数据作为训练集。
近年来微博,推特等用户自媒体的爆炸式增长,使得利用计算机挖掘网民意见不但变得可行,而且变得必须。这其中很重要的一项任务就是挖掘网民意见所讨论的对象,即评价对象。并且随着互联网信息的不断增长,以往的信息缺乏消失了。但海量的数据造成的后果是,人们越来越渴望能在快速地在数据汪洋中寻找属于自己的一滴水,新的信息缺乏诞生。对于电子商务来说,消费者希望能从众多的商品评论获得对商品的认识,进而决定是否购买,商家则希望从评论中获得市场对商品的看法,从而更好地适应用户的需求。类似的情况相继出现在博客、微博、论坛等网络信息聚合地。为了解决信息过载与缺乏的矛盾,人们初期手动地对网上海量而丰富的资源进行收集和处理,但瞬息万变的网民意见,突发的话题爆发很快让人手捉襟见肘。工程师们慢慢将开始利用计算机自动地对网络信息进行处理,意见挖掘由此应运而生。目前意见挖掘主要的研究对象是互联网上的海量文本信息,主要的任务包括网络文本的情感极性判别、评价对象抽取、意见摘要等。近年来,机器学习的发展让人们看到了意见挖掘的新希望。意见挖掘的智能化程度正在逐步提高。
参考文档: