[关闭]
@EggGump 2019-05-08T13:31:22.000000Z 字数 1038 阅读 533

TF-IDF

algorithm


概念:一个词在某篇文章中的TF-IDF值指的是这个词对这篇文章的重要性。

TF-IDF = tf * idf

TF:词频,计算公式为:


解释:特征词在文本j中出现的次数除以文本j的总词数
IDF:倒文本频率,公式如下

解释:语料库文章总数 除以 包含词的文章数+1 再取对数

下面通过一个示例进行讲解TF-IDF权重计算的方法。际一峰的例子
假设现在有一篇文章《贵州的大数据分析》,这篇文章包含了10000个词组,其中“贵州”、“大数据”、“分析”各出现100次,“的”出现500次(假设没有去除停用词),则通过前面TF词频计算公式,可以计算得到三个单词的词频,即:
TF(贵州)=100/10000 = 0.01
TF(大数据)=0.01
TF(分析) = 0.01
TF(的) = 500/10000 = 0.05

现在预料库中共存在1000篇文章,其中包含“贵州”的共99篇,包含“大数据”的共19篇,包含“分析”的共“59”篇,包含“的”共“899”篇。则它们的IDF计算如下:
IDF(贵州)=log(1000/100)=1.000
IDF(大数据)=log(1000/20) = 1.700
IDF(分析)= log(1000/60)=1.221
IDF(的)=log(1000/900) = 0.046
现在,TFIDF值如下:
TF-IDF(贵州)=0.01*1.000=0.010
TF-IDF(大数据)=0.01*1.700=.017
TF-IDF(分析)=0.01 * 1.221 = 0.012
TF-IDF(的) = 0.05 * 0.046 = 0.00023

通过TF-IDF计算,“大数据”在某篇文章中出现频率很高,这就能反应这篇文章的主题就是关于“大数据”方向的。如果只选择一个词,“大数据”就是这篇文章的关键词。所以,可以通过TF-IDF方法统计文章的关键词。同时,如果同时计算“贵州”、“大数据”、“分析”的TF-IDF,将这些词的TF-IDF相加,可以得到整篇文档的值,用于信息检索。

优缺点: TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是单纯以词频衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注