兴趣点推荐总结
人流量
GeoMF: Joint Geographical Modeling and Matrix Factorization for Point-of-Interest Recommendation
KDD’14, August 24–27, 2014, New York, NY, USA
Lian Defu, Zhao Cong, Xie Xing, Sun Guangzhong, Chen Enhong,
Rui Yong
模型与方法:
- 利用协同推荐来进行兴趣点推荐,类比于电影推荐中的用户评分,兴趣点推荐中的用户喜好是隐式的,所以对用户喜好采用0-1矩阵来代表用户是否到访过各个兴趣点,用加权矩阵W来刻画访问频率。
- 考虑到用户访问兴趣点稀疏情况非常严重,用户和兴趣点映射到一个维的联合隐式空间中的两个向量P和Q,使得用户对兴趣点的偏好可以建模成两个向量的点积。通过最小化频率矩阵R和PQ点积的Frobenius范数来得到最佳映射,即。为了降低泛化误差,通常会给目标函数添加正则项。
- 在兴趣点推荐中,还可以利用地理空间的信息,通过空间聚集效应的建模来构造用户活动区域向量和兴趣点影响力向量,先将地理空间划分为L个均匀的网格,
- 用户活动区域向量x:非负向量x中的没有元素表示了这个用户在中出现的可能性
- 兴趣点影响力向量y:假设兴趣点的影响力是事先固定的而且是以兴趣点为中心正态分布的,用非负向量y
- GeoMF模型的估计偏好矩阵:将所有用户的活动区域向量x和所有兴趣点的影响力向量y分别按行堆积,得到用户活动区域矩阵X和兴趣点影响力矩阵Y,新的矩阵分解过程变为:
- 采用交替最小化的方式,交替固定X学习隐向量P、Q和固定隐向量P、Q来对X做加权非负最小二乘来优化。
Point-of-Interest Recommendations: Learning Potential Check-ins from Friends
KDD ’16 San Francisco, USA
Huayu Li, Yong Ge and Hengshu Zhu
模型与方法
- 利用用户间的相似性来为用户推荐未访问过的兴趣点,用户之间的相似性可以从三种“朋友”关系来刻画,包括社交朋友(在LBSN上有社交连接的人),兴趣朋友(签到过的位置相似的人)和邻居朋友(家的位置相似的人)
- 用户跟位置的关系可以分为三种,已访问过的位置,潜在位置和没有访问的位置。潜在位置:是用户没有访问过,但是他的朋友访问过的位置集合。兴趣点推荐问题就是找出top S个最可能感兴趣的潜在位置。
- 用户到访兴趣点的可能性用表示。对的估计用线性整合和随机游走模型来估计
- 用来表示用户和他的朋友在位置的喜好相似程度,即. 而受两个方面因素的作用,一个是两人兴趣的相似性,另一个是用户的家离该位置的远近(可以用幂律分布去估计位置远近的影响)。然后将二者线性结合,即
- 构造一个有向图,包含两类节点,一类是用户节点,另一类是有签到的位置节点。y表示随机游走到达节点的概率向量,A表示归一化后的从节点到节点转移概率矩阵。概率转移有三种类型(1)用户节点直接用用户相似性(2)用户和位置之间有访问记录则为1,否则为0(3)位置直接用基于距离的幂律分布。然后用(公式略)迭代求出y
- 用矩阵分解的方式来计算的推荐结果,潜在的用户特征矩阵和位置特征矩阵分别是和,同时结合了用户对位置类型的偏好矩阵,用户对位置的偏好可以表示为
- 对U,K,Q三个矩阵进行学习的损失函数设计时,可以将已访问的位置当作正样本,潜在访问的位置作为低影响力的正样本,未访问的位置当作负样本或负样本和缺失值的合集。并提出了基于平方误差的模型和基于排序误差的模型来学习。在最终进行推荐前,再将矩阵分解计算的结果前乘一个地理距离影响因子.
- 在对常规情况进行预测时,就使用前面提到的方法;对用户冷启动的问题进行预测时,朋友关系中没有兴趣朋友,只根据社交朋友和邻居朋友进行推荐;对位置冷启动的问题,选S个跟其最近的位置的加权均值来当作对它的预测。
Addressing the cold-start problem in location recommendation using geo-social correlations
CIKM 2012, DMKD 2014
Huiji Gao · Jiliang Tang · Huan Liu
模型与方法
- 利用人们移动上的相似性来解决位置推荐中的冷启动问题,将人和人的关系分为4种,生活在附近的朋友,生活在附近的陌生人,距离很远的朋友,距离很远的陌生人。人的移动会由这四种关系的人共同影响。所以用户在t时刻到达位置l的概率表示为:
- 用用户以及和他具有四种关系的用户的历史签到数,冷启动位置签到数,签到过的位置数,各类关系的用户数等特征线性组合,再用S型函数归一化为[0,1]之间是值,等参数可以用再乘以一个系数的方式去估计。可以用TF-IDF的方式去估计。
- 具体涉及到的参数使用最大似然估计,并添加正则项