[关闭]
@songying 2019-03-06T10:38:14.000000Z 字数 553 阅读 1099

TF-IDF 算法

NLP


什么是TF-IDF?

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。

基本思想

将每篇文章看成一袋子词,忽略每个词出现的顺序。

TF-IDF

某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,所以通过计算文章中各个词的TF-IDF,由大到小排序,排在最前面的几个词,就是该文章的关键词。

优缺点

TF-IDF的优点是简单快速,而且容易理解。缺点是有时候用词频来衡量文章中的一个词的重要性不够全面,有时候重要的词出现的可能不够多,而且这种计算无法体现位置信息,无法体现词在上下文的重要性。如果要体现词的上下文结构,那么你可能需要使用word2vec算法来支持。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注