@Cesar
2015-11-27T14:09:55.000000Z
字数 1289
阅读 5397
数据挖掘
学习
支持度表示项集{X,Y}在总项集里出现的概率。
计算公式为:Support(X→Y)=P(X,Y)P(I)=P(X∪Y)P(I)=num(X∪Y)num(I)
其中I表示总事务集。num()表示求事务集里特定项集出现的次数。
置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为:
Confidence(X→Y)=P(Y|X)=P(X,Y)P(X)=P(X∩Y)P(X)
提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。其公式为
Lift(X→Y)=P(Y|X)P(Y)
下面是例题:
eg:已知有1000名顾客买年货,分为甲乙两组,每组各500人,其中甲组有500人买了茶叶,同时又有450人买了咖啡;乙组有450人买了咖啡,如表所示:
~ 买茶叶人数 买咖啡人数 甲组(500人) 500 450 乙组(500人) 0 450 试求解
1. "茶叶→咖啡"的支持度
2. "茶叶→咖啡"的置信度
3. "茶叶→咖啡"的提升度解:设
X={买茶叶},Y={买咖啡}
那么Surpport(X→Y)=num(X,Y)num(I)=4501000=45%
Confidence(X→Y)=P(X∩Y)P(X)=45%50%=90%
Lift(X→Y)=P(Y|X)P(Y)=90%90%=1
由于提升度
满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。