@chanvee
2014-08-13T18:27:31.000000Z
字数 3047
阅读 3165
趋势预测
这篇文章主要是针对在线媒体(如新闻消息,博客,tweets等),研究了它们的时态变化模式。
如上图,本文研究的对象是各大网站关于各种phrase(习语)以及tweeter的tag的流行度随着时间的演变,其流行度定义为在某个时刻该phrase(tag)在各大网站中提及的次数。本文想要研究的就是这些phrase(tag)随时间变化的模式。
对K-SC算法的一些说明:
1. 时间序列相似度(距离)的定义为:
2. 与K-Means算法的两点区别:a)定义的相似度距离不一样。b)在计算中心的时候不再是简单的求平均值,而是求使误差均方和最小的点。这样做是为了减小异常值所带来的影响。
3. Increament K-SC算法减小了K-SC算法的复杂度,并且解决了K-SC算法对初值选择的敏感性。
4. 聚类个数的选择,文中的解释是做了多组试验,根据两个评价指标Hartigan’s Index 和 the Average Silhouette,然后选择了K=6。
上图表示的是根据文中的方法的聚类结果,得到的6种不同的时态模式,图中的PNATB这些字母表示的在某一个类型中,被不同媒介首次提到的平均时间,作者由此分析了在不同类型中可能不同的信息传播模式。第二幅图表示的是根据不同的方法提取出的特征进行logistic回归分类的准确率,表中结果表明基于时间的特征分类效果最好。
本文主要的工作是提出了一种基于社会动力学的模型来进行新闻的流行预测,并将这种方法与线性外推法和只基于社交影响的方法进行比较。
如上图,本文的研究对象是社交新闻门户网站Digg,这个网站允许用户上传(submit)和投票/赞(vote)新闻,并且每个用户还可以follow好友的vote,也即该用户就是他的好友的fan,这样就引进了一种社交关系。此外,对于某一个新闻,当用户上传它之后,会出现在Digg的upcoming page从而可以得到用户的访问进而被vote,而当这个新闻被vote到一定次数之后,它可以进入Digg的front page,从而该新闻可以被认为是流行的(promoted)。因此,一个新闻可能通过三个途径用户观察到:upcoming page, front page, 用户的friend page。本文则是根据这些信息建立了基于社会动力学的模型来预测新闻是否会流行(promoted)。
上图表明如果一个用户的fans越少的话,那么他所提交的新闻就要越有趣才能够称为promoted商品,反之若用户的fans较多的话,那么其提交的商品成为流行的商品的门槛就会降低。第二幅图表示的是只根据前四次的观测来估算r值,r就是图中线的斜率。
上图表明如果对于一个刚刚发布的新闻,其最终得到的votes与其在初始阶段用户的fans的vote数成反比,可能说明真正有价值的新闻不是靠炒作而出来的。
最后文章简单的介绍了与另外两种方法的对比:与线性预测的相比,该方法更好的解释了新闻累积votes的过程,以及提高了相关性(correlation),减小了RMS。与只基于用户的社交关系(用户的粉丝数,前10次vote中fans的数量)为feature提出的决策树来对新闻进行是否会流行的分类,准确率有所提高。
[1] Yang, J. and Leskovec, J., Patterns of temporal variation in online media, in Proceedings of the fourth ACM international conference on Web search and data mining - WSDM ’11 (ACM Press, New York, New York, USA, 2011), p. 177, doi:10.1145/1935826.1935863.
[2] Lerman, K. and Hogg, T., Using a model of social dynamics to predict popularity of news, in Proceedings of the 19th international conference on World wide web - WWW ’10 (ACM Press, New York, New York, USA, 2010), p. 621, doi:10.1145/1772690.1772754.
[3] Markdown 原文