@stonezhou 2021-08-05T10:42:51.000000Z 字数 16212 阅读 1081

搜索推荐等业务调研

Vevor

知识参考

图搜索算法
 Python深度学习
 淘宝的搜索流程
 搜索引擎框架（知行）
百度搜索引擎算法汇总
 SEO 搜索引擎优化
 数据中台：从0到1打造一个离线推荐系统
 推荐模型策略
 机器学习——关联规则——支持度（support)、置信度（confidence）、提升度（Lift)
[推荐系统]推荐系统冷启动问题
 推荐系统冷启动
 汽车之家推荐系统排序算法迭代之路
 电商指标详细介绍和推荐系统常用评估指标
 多目标优化算法_阿里提出多目标优化全新算法框架，同时提升电商GMV和CTR
推荐系统的多目标优化(4)-PE-LTR

需求前准备

考核指标

了解当前指标现状，明确策略上线后的ROI，制定核心指标作用后续迭代依据
1.调研亚马逊推荐指标效果

未登录的情况下，亚马逊隐藏【猜你喜欢】和【买了又买】的推荐位置，只保留商详页的【看了又看】
猜你喜欢
看了又看 = 【浏览此商品的顾客也同事浏览】
买了又买 = 【购买此商品的顾客也同时购买】
亚马逊还有一个【看过此商品的顾客买的其它商品？】

影响亚马逊的指标，除了下图A9算法中涵盖因素外，还有广告投放策略

2.了解shopify推荐指标效果
https://help.shopify.com/zh-CN/manual/reports-and-analytics/shopify-reports/overview-dashboard
3.对自建站的推荐指标效果做预估考核
参考4.2转化指标，上线后以跑赢shopify指标为目标
4.推荐系统关键衡量指标
4.1 流量指标

view_uv指的是页面访问的不重复用户数
click_uv指的是页面点击的不重复用户数
view_pv指的是页面的访问次数，同一个用户多次访问一个页面，不会进行去重
click_pv指的是页面的点击次数，同样不会根据用户进行去重
pv_order指的是所有用户在平台的下单次数之和，不根据用户去重
uv_order指的是在平台下单的用户去重之后的总和

4.2 转化指标

PV_CTR，即页面曝光的点击率（click through rate），pv_ctr = pv_click / pv_view
UV_CTR，即页面曝光对应的用户点击率，uv_ctr = uv_click / uv_view
PV_CVR，即页面点击对应的转化率（vonversion rate），pv_cvr = pv_order / pv_click
UV_CVR，即页面点击对应的用户转化率，uv_cvr = uv_order / uv_click
PV_CXR，即页面曝光对应的成单率，pv_cxr = pv_order / pv_view
UV_CXR，即页面曝光对应的用户成单率，uv_cxr = uv_order / uv_view
原价RPM，即按照商品原价进行统计，原价RPM = 所有订单对应商品原价的总和 / uv
实付RPM，即按照商品实际支付价格进行统计，实付RPM = 所有订单的实际支付金额总和 / uv

4.3 其它指标（补充中）

原价客单价，即按照商品原价进行统计，原价客单价 = 所有订单对应商品原价的总和 / uv_order
实付客单价，即按照用户对商品的实际付的价格进行统计，实付客单价 = 所有订单的实际支付金额总和 / uv_order
原价单均价，即按照商品原价进行统计，原价单均价 = 所有订单对应商品原价的总和 / pv_order
实付单均价，即按照用户对商品的实际付的价格进行统计，实付单均价 = 所有订单的实际支付金额总和 / pv_order
GMV，即网站成交额（Gross Merchandise Volume），即只要电商平台上有用户进行下单，生成了订单号，便计算在GMV里
销售金额，销售金额是货品出售的实付金额总额

数据支持

明确源数据是否足以支持策略的开发，策略的本质是数据的流转，从源数据开始待一个可供展示的数据结束，用户看到的结果不过是一个数据的可视化过程，数据质量会直接决定策略的可实施性，保证数据质量最主要的手段就是高质量的埋点。

埋点数据：用户浏览商品记录（user_id、SKU、时间）
类目信息：类目树
商品信息：类目、SKU、商品标题、商品主图、商品状态、商品本店售价、币种、上架时间
评论信息：SKU、评论数、评论星级
实时价格：SKU、价格类型、销售价格、币种
实时库存：SKU、库存类型、库存数、发货地
营销信息：优惠类型、优惠策略、营销标识
购物车：user_id、加购SKU、加购时间、加购数量
用户信息：user_id、收藏商品清单
订单数据：订单号、订单商品、订单数商品数量、订单商品原价、订单商品折后价、订单总金额、订单支付金额、user_id、订单状态、下单时间、支付时间、退款时间、签收时间、(质量)退款率

业务场景边界

1.搜索结果页
2.分类列表页
3.猜你喜欢：
PC:首页瀑布流、类目页泳道、购物车泳道、个人中心泳道
M:首页瀑布流、会员中心瀑布流、支付完成页瀑布流
4.买了又买：
PC:商详页泳道
M：商详页瀑布流
5.看了又看：
PC:商详页泳道
M：商详页瀑布流
6.datafeed（待讨论）

其它服务支持

1.A/B test
2.后台测试工具（选择用户、时间段、算法类型、商品参数，获取推荐结果，用于数据验证）
3.网站埋点：点击埋点、页面埋点、曝光埋点、接口埋点
4.中台模块数据支持（商品、订单、营销、库存、会员）
5.人工干预后台功能配置（人工插排规则设定、营销推荐规则、热门参数设定、物品相关度数据维护）
6.搜索词相关配置（热搜词干预等）

运营调研

1.都是实库，备货海外仓，不卖虚库
2.一个本地仓就卖一个国家
3.一个站的可售sku就是几千个
4.展示销量最好的sku，进去后详情页面是spu

调研内容草稿

埋点知识

埋点的基本流程：
1.设计埋点方案
2.埋点代码植入
3.埋点测试
4.线上数据跟踪

埋点方案类型：
1.点击埋点方案：产品标识、埋点位置、页面名称、埋点标识、埋点参数、订单参数等
2.页面埋点方案
3.曝光埋点方案

曝光埋点：
有效曝光的定义要科学合理。关于有效曝光可以从空间和时间两个维度去定义，基本可以保证数据的可参考性。
1.空间上，有效曝光指曝光的位置、曝光区域的大小；
2.时间上，有效曝光指曝光的时机、曝光的时长、重复上报的时机。

常见指标含义

源数据指标

view_uv指的是页面访问的不重复用户数
click_uv指的是页面点击的不重复用户数
view_pv指的是页面的访问次数，同一个用户多次访问一个页面，不会进行去重
click_pv指的是页面的点击次数，同样不会根据用户进行去重
pv_order指的是所有用户在平台的下单次数之和，不根据用户去重
uv_order指的是在平台下单的用户去重之后的总和
原订单金额
实付订单金额

加工指标

IPV：商品详情页流量
IPV_UV：是浏览过商品详情的独立访问者，注意：IPV_UV也是不能累加的
PV_CTR，即页面曝光的点击率（click through rate），pv_ctr = pv_click / pv_view
UV_CTR，即页面曝光对应的用户点击率，uv_ctr = uv_click / uv_view
PV_CVR，即页面点击对应的转化率（vonversion rate），pv_cvr = pv_order / pv_click
UV_CVR，即页面点击对应的用户转化率，uv_cvr = uv_order / uv_click
PV_CXR，即页面曝光对应的成单率，pv_cxr = pv_order / pv_view
UV_CXR，即页面曝光对应的用户成单率，uv_cxr = uv_order / uv_view
原价RPM，即按照商品原价进行统计，原价RPM = 所有订单对应商品原价的总和 / uv
实付RPM，即按照商品实际支付价格进行统计，实付RPM = 所有订单的实际支付金额总和 / uv
原价客单价，即按照商品原价进行统计，原价客单价 = 所有订单对应商品原价的总和 / uv_order
实付客单价，即按照用户对商品的实际付的价格进行统计，实付客单价 = 所有订单的实际支付金额总和 / uv_order
原价单均价，即按照商品原价进行统计，原价单均价 = 所有订单对应商品原价的总和 / pv_order
实付单均价，即按照用户对商品的实际付的价格进行统计，实付单均价 = 所有订单的实际支付金额总和 / pv_order
GMV，即网站成交额（Gross Merchandise Volume），即只要电商平台上有用户进行下单，生成了订单号，便计算在GMV里
销售金额，销售金额是货品出售的实付金额总额

电商更多指标收集

2.1 总体运营指标
2.1.1 流量运营类指标
UV，即User View，指的是不重复的用户数，其包括view_uv和click_uv，这两个指标在电商运营的过程中的作用很大，往往指导着策略的迭代方向

view_uv指的是页面访问的不重复用户数
click_uv指的是页面点击的不重复用户数

说明：这里统计的不重复的用户数是根据全站的访问用户唯一ID进行去重得到的，在实际的业务场景中，用户ID不仅包含userid，还会有设备ID等唯一表示，因为同一个账号可能会在不同的设备上登录

PV，即Page View，指的是页面的统计指标，包括view_pv和click_pv

view_pv指的是页面的访问次数，同一个用户多次访问一个页面，不会进行去重
click_pv指的是页面的点击次数，同样不会根据用户进行去重

说明：pv指标是会进行累加的，因此pv要比uv大很多

PV_CTR，即页面曝光的点击率（click through rate），pv_ctr = pv_click / pv_view

UV_CTR，即页面曝光对应的用户点击率，uv_ctr = uv_click / uv_view

2.1.2 订单产生效率指标
总下单次数，即用户在平台的订单次数之和，分为pv和uv

pv_order指的是所有用户在平台的下单次数之和，不根据用户去重
uv_order指的是在平台下单的用户去重之后的总和

总下单量，即用户在平台的订单量之和（因为一个订单可能包括多个商品），一般统计总下单量是指的pv维度的值。

PV_CVR，即页面点击对应的转化率（vonversion rate），pv_cvr = pv_order / pv_click

UV_CVR，即页面点击对应的用户转化率，uv_cvr = uv_order / uv_click

PV_CXR，即页面曝光对应的成单率，pv_cxr = pv_order / pv_view

UV_CXR，即页面曝光对应的用户成单率，uv_cxr = uv_order / uv_view

2.1.3 总体销售业绩指标
GMV，即网站成交额（Gross Merchandise Volume），即只要电商平台上有用户进行下单，生成了订单号，便计算在GMV里，与下面的GTV进行区别，该指标主要是应用在京东、淘宝这样的平台上

GTV，即网站的总交易额（Gross Transaction Value），跟GMV定义一致，只不过是针对的不同的商业模式，一般会用在美团、饿了么这种平台上

销售金额，销售金额是货品出售的金额总额（注：无论这个订单最终是否成交，有些订单下单未付款或取消，都算GMV或者GTV，销售金额一般只指实际成交金额，所以，GMV、GTV的数字一般比销售金额大）

客单价，即订单金额与订单数量的比值，同样根据商品的原价、实付价格分为原价客单价、实付客单价

原价客单价，即按照商品原价进行统计，原价客单价 = 所有订单对应商品原价的总和 / uv_order
实付客单价，即按照用户对商品的实际付的价格进行统计，实付客单价 = 所有订单的实际支付金额总和 / uv_order

单均价，即订单金额与订单总量的比值（一个订单算一次，但是一个订单中会有多个商品，按照之际商品个数进行统计的为订单总量），同样根据商品的原价、实付价格分为原价单均价、实付单均价

原价单均价，即按照商品原价进行统计，原价单均价 = 所有订单对应商品原价的总和 / pv_order
实付单均价，即按照用户对商品的实际付的价格进行统计，实付单均价 = 所有订单的实际支付金额总和 / pv_order

RPM，千次展示收入（Revenue Per Mille），按照用户进行统计，即对1000个用户有曝光，产生的收入，同样会根据商品的原价和实付价格分为原价RPM、实付RPM

原价RPM，即按照商品原价进行统计，原价RPM = 所有订单对应商品原价的总和 / uv
实付RPM，即按照商品实际支付价格进行统计，实付RPM = 所有订单的实际支付金额总和 / uv

2.1.4 整体指标

销售毛利，是销售收入与成本的差值。销售毛利中只扣除了商品原始成本，不扣除没有计入成本的期间费用（管理费用、财务费用、营业费用）
毛利率，是衡量电商企业盈利能力的指标，是销售毛利与销售收入的比值。如京东的2014年毛利率连续四个季度稳步上升，从第一季度的10.0％上升至第四季度的12.7％，体现出京东盈利能力的提升

2.2 网站流量指标
2.2.1 流量规模类指标
常用的流量规模类指标包括独立访客数（UV）、页面访问数（PV）等，参考2.1.1。

2.2.2 流量成本类指标
单位访客获取成本，英文表示为：CAC（Customer acquisition cost）该指标指在流量推广中，广告活动产生的投放费用与广告活动带来的独立访客数的比值。单位访客成本最好与平均每个访客带来的收入以及这些访客带来的转化率进行关联分析。若单位访客成本上升，但访客转化率和单位访客收入不变或下降，则很可能流量推广出现问题，尤其要关注渠道推广的作弊问题

2.2.3 流量质量类指标

跳出率（Bounce Rate）也被称为蹦失率，为浏览单页即退出的次数/该页访问次数，跳出率只能衡量该页做为着陆页面（LandingPage，也称落地页）的访问。如果花钱做推广，着落页的跳出率高，很可能是因为推广渠道选择出现失误，推广渠道目标人群和和被推广网站到目标人群不够匹配，导致大部分访客来了访问一次就离开
页面访问时长，页访问时长是指单个页面被访问的时间。并不是页面访问时长越长越好，要视情况而定。对于电商网站，页面访问时间要结合转化率来看，如果页面访问时间长，但转化率低，则页面体验出现问题的可能性很大
人均页面访问数，即页面的访问次数 / 页面的访问用户数，该指标反映的是网站的粘性
人均页面点击数，即页面的点击次数 / 页面的访问次数

2.2.4 会员类指标

注册会员数，指一定统计周期内的注册会员数量
活跃会员数，指在一定时期内有消费或登录行为的会员总数
活跃会员率，即活跃会员占注册会员总数的比重
会员复购率，指在统计周期内产生二次及二次以上购买的会员占购买会员的总数
会员平均购买次数，指在统计周期内每个会员平均购买的次数，即订单总数/购买用户总数。会员复购率高的电商网站平均购买次数也高
会员回购率，指上一期末活跃会员在下一期时间内有购买行为的会员比率
会员留存率，会员在某段时间内开始访问你的网站，经过一段时间后，仍然会继续访问你的网站就被认作是留存，这部分会员占当时新增会员的比例就是新会员留存率，这种留存的计算方法是按照活跃来计算，另外一种计算留存的方法是按消费来计算，即某段的新增消费用户在往后一段时间时间周期（时间周期可以是日、周、月、季度和半年度）还继续消费的会员比率。留存率一般看新会员留存率，当然也可以看活跃会员留存。留存率反应的是电商留住会员的能力

会员类指标也可以应用到普通用户身上，比如普通用户的注册数目、活跃用户数、活跃用户占比、普通用户复购率、普通用户平均下单次数、普通用户的留存率、回购率等。比如我们看抖音会什么估值那么高，主要还是因为你用户基数、活跃用户数，底盘大了才能基于用户做一些创造利益的事情。

2.3 网站销售（转化率）类指标
2.3.1 购物车类指标

加入购物车次数，指一定周期内用户加入购物车对应的商品种类数（一般按照商品去重）
加入购物车商品数，指一定周期内用户加入购物车对应的商品数（不对商品去重）
加入购物车买家数，指一定周期内用户加入购物车对应的人数
加入购物车卖家数，指一定周期内用户加入购物车对应的店铺数
购物车转化率，指加入购物车后转化为下单的比例

2.3.2 下单类指标
参考2.1.2 和2.1.3。

2.3.3 支付类指标
基础统计类指标，包括一定统计周期内支付金额、支付买家数和支付商品数。

转化类指标。包括浏览-支付买家转化率（支付买家数/网站访客数）、下单-支付金额转化率（支付金额/下单金额）、下单-支付买家数转化率（支付买家数/下单买家数）和下单-支付时长（下单时间到支付时间的差值）。

2.4 客户价值类指标
客单价、单均价等，参考2.1.3

新客类指标：

新客户数量，指的是一定周期内新客户的数量
新客户获取成本，参考2.2.2
新客户客单价，第一次在店铺中产生消费行为的客户所产生交易额与新客户数量的比值。影响新客户客单价的因素除了与推广渠道的质量有关系，还与电商店铺活动以及关联销售有关

老客类指标：

消费频率，指客户在一定期间内所购买的次数
最近一次购买时间，指客户最近一次购买的时间离现在有多远
消费金额，指客户在最近一段时间内购买的金额
复购率，指消费者对该品牌产品或者服务的重复购买次数，重复购买率越多，则反应出消费者对品牌的忠诚度就越高，反之则越低
平均购买次数，指一定用户内所有老客的的购买次数除以购买的老客数
消费频率越高，最近一次购买时间离现在越近，消费金额越高的客户越有价值

重复购买率可以按两种口径来统计：第一种，从客户数角度，重复购买率指在一定周期内下单次数在两次及两次以上的人数与总下单人数之比，如在一个月内，有100个客户成交，其中有20个是购买两次及以上，则重复购买率为20%；第二种，按交易计算，即重复购买交易次数与总交易次数的比值，如某月内，一共产生了100笔交易，其中有20个人有了二次购买，这20人中的10个人又有了三次购买，则重复购买次数为30次，重复购买率为30%

2.5 商品类指标
产品总数指标：

SKU，SKU是物理上不可分割的最小存货单位
SPU，SPU即Standard Product Unit （标准化产品单元），SPU是商品信息聚合的最小单位，是一组可复用、易检索的标准化信息的集合，该集合描述了一个产品的特性。通俗点讲，属性值、特性相同的商品就可以称为一个SPU。如iphone5S是一个SPU，而iPhone 5S配置为16G版、4G手机、颜色为金色、网络类型为TD-LTE/TD-SCDMA/WCDMA/GSM则是一个SKU
在线SPU，在线SPU则是在线商品的SPU数。

产品优势性指标：

独家产品的收入占比，即独家销售的产品收入占总销售收入的比例

品牌存量指标：

品牌数，品牌数指商品的品牌总数量
在线品牌数，在线品牌数则指在线商品的品牌总数量

上架：

上架商品SKU数
上架商品SPU数
上架在线SPU数
上架商品数
上架在线商品数

首发：

首次上架商品数
首次上架在线商品数

流量类指标：

浏览次数（PV）
浏览用户数（UV）

订单类指标：

下单用户数（Order_UV）
销量
销售金额

转化类指标：

2.6 市场营销活动指标
市场营销活动指标。包括新增访问人数、新增注册人数、总访问次数、订单数量、下单转化率以及ROI。其中，下单转化率是指活动期间，某活动所带来的下单的次数与访问该活动的次数之比。投资回报率（ROI）是指，某一活动期间，产生的交易金额与活动投放成本金额的比值

广告投放指标。包括新增访问人数、新增注册人数、总访问次数、订单数量、UV订单转化率、广告投资回报率。其中，下单转化率是指某广告所带来的下单的次数与访问该活动的次数之比。投资回报率（ROI）是指，某广告产生的交易金额与广告投放成本金额的比值

2.7 风控类指标
买家评价指标。包括买家评价数，买家评价卖家数、买家评价上传图片数、买家评价率、买家好评率以及卖家差评率。其中，买家评价率是指某段时间参与评价的卖家与该时间段买家数量的比值，是反映用户对评价的参与度，电商网站目前都在积极引导用户评价，以作为其他买家购物时候的参考。买家好评率指某段时间内好评的买家数量与该时间段买家数量的比值。同样，买家差评率指某段时间内差评的买家数量与该时间段买家数量的比值。尤其是买家差评率，是非常值得关注的指标，需要监控起来，一旦发现买家差评率在加速上升，一定要提高警惕，分析引起差评率上升的原因，及时改进

买家投诉类指标。包括发起投诉（或申诉），撤销投诉（或申诉），投诉率（买家投诉人数占买家数量的比例）等。投诉量和投诉率都需要及时监控，以发现问题，及时优化

2.8 市场竞争类指标
市场份额相关指标，包括市场占有率、市场扩大率和用户份额。市场占有率指电商网站交易额占同期所有同类型电商网站整体交易额的比重；市场扩大率指购物网站占有率较上一个统计周期增长的百分比；用户份额指购物网站独立访问用户数占同期所有B2C购物网站合计独立访问用户数的比例

网站排名，包括交易额排名和流量排名。交易额排名指电商网站交易额在所有同类电商网站中的排名；流量排名指电商网站独立访客数量在所有同类电商网站中的排名

电商推荐系统中常看的指标
上文很详细的介绍了电商平台的一些常用指标，但是在做推荐系统的过程中并不是所有都需要关注的，在进行平台运营的过程中，不同的工作人员会关注不同的指标，而作为推荐从业者我们更多需要关注的是召回和排序的相关指标。两者共同的特点是：关注的指标基本一致，只不过是分不同的情况。

比如召回，我们更多的是关注分召回源的统计指标，排序则是关注不同模型（AB实验）的统计指标。两者共同需要关注的指标有：曝光次数（PV、UV维度）、点击次数（PV、UV维度）、订单次数（PV、UV维度）、曝光点击率（PV、UV维度）、点击下单率（PV、UV维度）、曝光下单率（PV、UV维度）、总的优惠后交易额、总的实际交易额、RPM（PV、UV维度）、客单价、单均价等。

在进行统计展示时一般是使用如下的形式进行展示，然后将你关注的指标放入表格即可，然后进行固化，方便每天查看数据。

算法模型

梯度提升决策树（Gradient Boosting Decision Tree, GBDT）

GBDT：梯度提升决策树
GBDT！深入浅出详解梯度提升决策树

GBDT（Gradient Boosting Decision Tree），即梯度提升决策树；LR（Logistic Regression），即逻辑回归。使用“GBDT+LR”算法预测点击率需要两个数据：特征和权重。

特征比较好理解，比如一个用户的年龄、地址，该用户近期浏览过某品类的商品的次数，加购过这个品类的商品次数类似等，都是特征。

权重是由人工制定并通过数据再不断优化的参数。比如一个用户如果浏览过这个品类，我们觉得用户有40%的可能喜欢该品类；一个用户如果加购过这个品类，我们觉得用户有60%的可能喜欢该品类。这里面的40%和60%，就是我们设定的权重。

GBDT模型的具体操作可以理解为：不断对一个用户提问。

比如向用户提问：是女性用户吗？
如果答案为“是”，再问：喜欢毛衣吗？
如果答案为“是”，再问：喜欢哪个价格段的毛衣？
这些提问按照层级组织起来。对于不同答案再提出不同的新问题，直到最后得出最终答案：用户对这个商品满意吗？这就是GBDT模型。该模型天然可以肩负起组合特征的任务，第一个问题相当于树的根节点，最后得到的答案相当于叶子节点，整条提问路径就是若干个特征的组合。

GBDT的优点是自动挖掘用户的特征，得到最佳的特征组合，省去构建特征工程的烦琐工作。

逻辑回归（Logistic Regression, LR）

【机器学习】逻辑回归（非常详细）
逻辑回归模型(Logistic Regression, LR)基础
 逻辑回归(logistics regression)

逻辑回归（Logistic Regression, LR）又称为逻辑回归分析，是分类和预测算法中的一种，通过历史数据的表现对未来结果发生的概率进行预测；例如，我们可以将用户喜欢某商品的概率设置为因变量，将用户的特征属性，例如性别，年龄，注册时间、偏好品类等设置为自变量。根据特征属性预测用户对某件商品喜欢的的概率。

UserCF

基于用户的协同过滤算法（UserCF）原理以及代码实践

协同过滤（collaborative filtering）是一种在推荐系统中广泛使用的技术。该技术通过分析用户或者事物之间的相似性，来预测用户可能感兴趣的内容并将此内容推荐给用户。这里的相似性可以是人口特征的相似性，也可以是历史浏览内容的相似性，还可以是个人通过一定机制给与某个事物的回应。比如，A和B是无话不谈的好朋友，并且都喜欢看电影，那么协同过滤会认为A和B的相似度很高，会将A喜欢但是B没有关注的电影推荐给B，反之亦然。

协同过滤推荐分为3种类型：

基于用户(user-based)的协同过滤(UserCF)
基于物品(item-based)的协同过滤（ItemCF算法)
基于模型(model-based)的协同过滤 (ModelCF算法)
本文主要讲述基于用户协同过滤算法的原理以及代码实现。

算法原理
UserCF算法主要是考虑用户与用户之间的相似度，给用户推荐和他兴趣相似的其他用户喜欢的物品。俗话说"物以群分，人以类聚"，人们总是倾向于跟自己志同道合的人交朋友。同理，你朋友喜欢的东西你大概率也可能会喜欢，UserCF算法正是利用了这个原理。举个例子，如果要给一个用户A推荐物品，可以先找到与A最为相似的用户B，接着获取用户B最喜欢的且用户A没有听说过的物品，并预测用户A对这些物品的评分，从中选取评分最高的若干个物品推荐给用户A。

从上述描述可以知道，UserCF算法的主要步骤如下：

找到与目标用户兴趣相似的用户集合

找到这个集合中的用户最喜欢的，且目标用户还未接触过的物品推荐给目标用户

ItemCF算法

基于物品的协同过滤算法（ItemCF）原理以及代码实践
 itemCF算法

协同过滤推荐分为3种类型：

基于用户(user-based)的协同过滤(UserCF)
基于物品(item-based)的协同过滤（ItemCF算法)
基于模型(model-based)的协同过滤 (ModelCF算法)

算法原理
ItemCF算法是目前业界使用最广泛的算法之一，亚马逊、Netflix、YouTube的推荐算法的基础都是基于ItemCF。
不知道大家平时在网上购物的时候有没有这样的体验，比如你在网上商城下单了一个手机，在订单完成的界面，网页会给你推荐同款手机的手机壳，你此时很可能就会点进去浏览一下，顺便买一个手机壳。其实这就是ItemCF算法在背后默默工作。ItemCF算法给用户推荐那些和他们之前喜欢的物品相似的物品。因为你之前买了手机，ItemCF算法计算出来手机壳与手机之间的相似度较大，所以给你推荐了一个手机壳，这就是它的工作原理。看起来是不是跟UserCF算法很相似是不是？只不过这次不再是计算用户之间的相似度，而是换成了计算物品之间的相似度。

由上述描述可以知道ItemCF算法的主要步骤如下：

计算物品之间的相似度
根据物品的相似度和用户的历史行为给用户生成推荐列表
那么摆在我们面前的第一个问题就是如何计算物品之间的相似度，这里尤其要特别注意一下：

ItemCF算法并不是直接根据物品本身的属性来计算相似度，而是通过分析用户的行为来计算物品之间的相似度。

什么意思呢？比如手机和手机壳，除了形状相似之外没有什么其它的相似点，直接计算相似度似乎也无从下手。但是换个角度来考虑这个问题，如果有很多个用户在买了手机的同时，又买了手机壳，那是不是可以认为手机和手机壳比较相似呢？

Fp-Growth

从零实现机器学习算法（十四）FP-growth

FP的全称是Frequent Pattern，在算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。所谓前缀树，是一种存储候选项集的数据结构，树的分支用项名标识，树的节点存储后缀项，路径表示项集

搜索推荐等业务调研

知识参考

需求前准备

考核指标

数据支持

业务场景边界

其它服务支持

推荐算法迭代计划

运营调研

推荐规则

交互说明

商品池

猜你喜欢

看了又看

买了又买

首页推荐猜你喜欢

调研内容草稿

埋点知识

常见指标含义

电商更多指标收集

更多指标收集

推荐系统冷启动问题简介

算法模型

梯度提升决策树（Gradient Boosting Decision Tree, GBDT）

逻辑回归（Logistic Regression, LR）

UserCF

ItemCF算法

Fp-Growth

搜索推荐等业务调研

知识参考

需求前准备

考核指标

数据支持

业务场景边界

其它服务支持

推荐算法迭代计划

运营调研

推荐规则

交互说明

商品池

猜你喜欢

看了又看

买了又买

首页推荐猜你喜欢

调研内容草稿

埋点知识

常见指标含义

电商更多指标收集

更多指标收集

推荐系统冷启动问题简介

算法模型

梯度提升决策树（Gradient Boosting Decision Tree, GBDT）

逻辑回归（Logistic Regression, LR）

UserCF

ItemCF算法

Fp-Growth

内容目录