@pastqing
2016-01-08T14:00:38.000000Z
字数 2227
阅读 3108
机器学习
推荐系统并不是新鲜物,在很久之前就存在。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。
解决信息过载问题的其中的一个手段就是设计并实施推荐系统。在很多情况下用户的意图不明确,或者很难用清晰的语义表达,甚至连用户自己都不清楚自己的需求。这种情景下解决信息过载,理解用户意图,为用户推送个性化的结果,推荐系统便是一种比较好的选择。
下面简述一下本推荐系统推荐列表构成
热度推荐:根据统计数据,推荐给用户当前热门的微博话题。
例如新浪微博的热门话题推荐
相关性推荐:根据用户的历史数据,挖掘用户历史数据中的相似关系,从而推荐相关的话题。
例如新浪微博输入查询词后相关性推荐:
互补性推荐:根据用户的历史浏览话题记录以及语料库, 挖掘其子话题,将子话题推荐给用户。
比如我在新浪微博以中山东科技大学作为检索词,可能会检索出一些子话题的内容
以上是我设想的推荐系统的输入和输出。
协同过滤是推荐系统中的常用推荐系统算法,但是不同的数据会有的差异化。
基于Item的协同过滤(item-based)
2)进行预测:
加权和预测:以相似度为权重,对用户点赞情况进行加权平均
线性回归预测,先做线性回归近似,再算相似度,再加权平均。
对于移动设备而言,与PC端最大的区别之一是移动设备的位置是经常发生变化的。不同的地理位置反映了不同的用户场景,在具体的业务中可以充分利用用户所处的地理位置。在推荐中,可以根据用户的实时地理位置、工作地、居住地等地理位置触发相应的策略。
存在问题:为了保护隐私,APP以及微博允许用户关闭位置信息。
用户可能对某一话题的微博感兴趣,同时想要了解其子话题的内容,因此我们可以构建一个话题与子话题的树, 在计算Item相似度的基础上,根据某话题的孩子结点构建推荐列表。
思路1:根据语料构建一个话题树,根据用户的历史浏览数据,搜索话题树向用户推荐子话题
思路2:根据预料和用户历史数据做聚类,不用知道类别的标签,只需要将除去自身其他类别的内容推荐出来。
本数据来源与中华万年历APP部分用户11月份的卡片浏览记录。
下面是中华万年历的截图:
经过统计本数据共有142671个用户, 共有83830个帖子
下面是数据部分截图:
针对此表数据,我做了一些简单的统计分析。
基于此数据,我打算建模做一个文本挖掘。
我简单提取了关键词,下面是关键词截图
1. 个人理论知识不足:没有研究过推荐系统,读的论文太少,因此对特定业务数据的如何做推荐,用何种模型都很不清楚。不会抽象。
2.拿到了数据不会分析,或者是分析不到关键点。