@chanvee
2014-11-17T14:52:02.000000Z
字数 4998
阅读 2657
popularity-prediction
在当今这个数字化信息化的世界中,在线商品(online content)已经成为了一笔非常重要的财富也吸引着很多人的关注,与此同时,随着社交媒体的革新和发展,使得人们淹没在了信息的海洋中。举个例子,每一分钟,全世界有超过300000条推特发表,680000条脸书分享以及100小时总时长的视频被上传到YouTube上。由于在线的生态系统是一个“winner-take-all”(赢即一切)的社会,因此只会有少量的商品会得到关注。在这个背景下,如何确定哪些商品在未来会成为流行的商品就成为了一件非常重要的事了。
这个领域始于对用户浏览网页的模式的研究,研究发现用户对网页的访问服从Zip's的幂律分布,随着网页浏览模式被逐渐理解,人们开始试着预测商品的流行度。第一种预测方法是建立在商品的流行度在其生命周期的各个不同的时间段有着强烈的相关性这个基础上,从而这种方法是建立一个线性回归模型,通过统计商品在其发布后所得到的关注来预测其之后的流行度;而后随着web 2.0平台的流行,提供了大量的用户与在线商品交互的元数据,使得很多基于社交网络的预测方法被提出,此后,人们对不同平台的各类在线商品进行了分析,同时各种用来评价预测结果好坏的评价指标也被提出;另一种重要的解决此问题的方法是通过研究在线商品流行度随着时间演化的模式来进行预测,研究发现许多的在线商品的流行度演化都可以被描述为仅仅少数的几种时态模式,然后针对不同的时态模式在通过预测方法进行预测从而可以得到更好的预测表现;前面提到的几类方法都针对与某一个单一的平台,因此,此领域进一步的突破在于通过跨平台提取跨平台相关(cross-correlate)的信息来设计预测方法。
由于存在各种各样的在线网站,因此在线商品的形式也是多种多样的。不同种类的在线商品存在着不同的特征,其适应的预测方法也会不同。
在线视频 在线视频的流行度通常被定义为视频被浏览的次数,这类商品的特点是其生命周期较长,其流行度随时间的变化是高度不稳定的,其分布通常符合指数截断的幂律分布、对数正态分布或伽马分布等。
在线新闻 在线新闻的流行度通常被定义为新闻被评论的次数,这类商品的特点是其生命周期较短,更新较快,其分布通常符合幂律分布或是对数正太分布。
社交书签网站 如Digg、Slashdot等网站的stories,这类商品的更新更快,其分布通常符合长尾的Weibull分布或是对数正太分布。
社交网络服务 这类商品反映的是互联网用户之间的交互关系的商品,如Twitter和微博等,这类商品传播非常之快,同时更新更快,其流行度通常定义为被转发的次数,其分布通常符合幂律分布。
在提出评价指标之前,需要定义一些术语:
数值预测的评价指标主要是评估对商品流行度具体数值预测的好坏,常用的指标包括一下几个:
分类评价指标是用来评估对商品流行度进行分类预测的好坏,比如预测商品在未来是流行还是不流行两类,此时常用的指标则是precision、recall和F-score。由于F-score只针对一类,因此针对分为多类的情形常用macro-average(即F-score对所有分类的平均值)。
目前流行度预测的方法的分类主要如上图所示。
针对单一网站或平台
在商品发布之前则进行预测,这类方法主要是针对的那些生命周期非常短的商品,并主要是对商品的流行对进行分类。这类预测任务可以看做是一个两步的分类问题:一是预测新商品是否会得到评论;而是预测得到的评论量是高还是低。
Aggregate behavior 这类方法主要通过积累用户在早期对商品的关注来进行商品流行度的预测。
Cumulative growth. 这里提到的第一种方法如下:
这一类方法是通过跨平台的信息来预测商品的流行度,目前这类方法的研究还较少,只有基于aggregate behavior预测after publication的方法提出,但是从目前这些已有的一些方法的效果来说,确实能够得到提高。这类方法通常是通过机器学习中的一些方法诸如线性回归、svm、随机森立和决策树,在训练集中对某一个平台如推特的一些推文的语义来预测电影平台的评分等。这类方法的有效性在于,当商品相关的信息在许多的网站上快速传播时,通过收集这些平台上的信息可以显著的提高预测的准确性。
有前文的分析可知,确定哪些因素可能会导致商品的流行对于预测商品的流行度是非常重要的。通过对现有的一些研究的总结发现:商品所带的情绪(emotion)是一个非常重要的因素,如果一个商品所带有的情绪越激烈或是极端则其更有可能在在线网络中进行传播;商品本身的质量和主题以及地理相关性也与商品的流行度成正相关;另一方面,同一个商品以多种版本出现将会导致商品流行度的降低。此外,还有一些不可知的因素对商品的流行度有着强烈的影响,诸如搜索工具、推荐系统和社交分享应用等;另外现实社会中,一些重大事件的发生也同样会影响商品的流行度。
前文主要是对商品流行度预测问题的简介以及常用方法的介绍,此外还提及到了哪些因素可能导致商品流行。当然商品流行度预测的这个问题还有许多进一步的工作等待展开:
Predicting long-term popularity evolution 目前大部分的研究都是对商品的流行度进行短期的预测,如果我们可以对商品的流行度的长城演化进行预测,那么我们就可以揭露商品在不同时段流行度的变化过程:初始增长,顶峰时段,下降,甚至是流行度的边界。这些信息都能帮助广告商制定相应的策略从而谋取更大的利益。
Building richer models 目前很多模型都是通过收集商品早期的流行度,运用线性回归模型来进行预测,但是其实可针对不同的商品可以建立不同的模型来进行预测。比如根据其概率分布来建立模型,建立实时预测模型,建立递归时间模型,基于真实事件的模型,在线协作模型等。
Markdown原文
原文链接:Tatar A, de Amorim M D, Fdida S, et al. A survey on predicting the popularity of web content[J]. Journal of Internet Services and Applications, 2014, 5(1): 1-20.