@stonezhou
2021-08-05T10:42:51.000000Z
字数 16212
阅读 1081
Vevor
图搜索算法
Python深度学习
淘宝的搜索流程
搜索引擎框架(知行)
百度搜索引擎算法汇总
SEO 搜索引擎优化
数据中台:从0到1打造一个离线推荐系统
推荐模型策略
机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)
[推荐系统]推荐系统冷启动问题
推荐系统冷启动
汽车之家推荐系统排序算法迭代之路
电商指标详细介绍和推荐系统常用评估指标
多目标优化算法_阿里提出多目标优化全新算法框架,同时提升电商GMV和CTR
推荐系统的多目标优化(4)-PE-LTR
了解当前指标现状,明确策略上线后的ROI,制定核心指标作用后续迭代依据
1.调研亚马逊推荐指标效果
影响亚马逊的指标,除了下图A9算法中涵盖因素外,还有广告投放策略
2.了解shopify推荐指标效果
https://help.shopify.com/zh-CN/manual/reports-and-analytics/shopify-reports/overview-dashboard
3.对自建站的推荐指标效果做预估考核
参考4.2转化指标,上线后以跑赢shopify指标为目标
4.推荐系统关键衡量指标
4.1 流量指标
4.2 转化指标
4.3 其它指标(补充中)
明确源数据是否足以支持策略的开发,策略的本质是数据的流转,从源数据开始待一个可供展示的数据结束,用户看到的结果不过是一个数据的可视化过程,数据质量会直接决定策略的可实施性,保证数据质量最主要的手段就是高质量的埋点。
1.搜索结果页
2.分类列表页
3.猜你喜欢:
PC:首页瀑布流、类目页泳道、购物车泳道、个人中心泳道
M:首页瀑布流、会员中心瀑布流、支付完成页瀑布流
4.买了又买:
PC:商详页泳道
M:商详页瀑布流
5.看了又看:
PC:商详页泳道
M:商详页瀑布流
6.datafeed(待讨论)
1.A/B test
2.后台测试工具(选择用户、时间段、算法类型、商品参数,获取推荐结果,用于数据验证)
3.网站埋点:点击埋点、页面埋点、曝光埋点、接口埋点
4.中台模块数据支持(商品、订单、营销、库存、会员)
5.人工干预后台功能配置(人工插排规则设定、营销推荐规则、热门参数设定、物品相关度数据维护)
6.搜索词相关配置(热搜词干预等)
1.推荐系统冷启动(兜底算法)
推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件。如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。结合vevor自身条件分析,通过非个性化的推荐+人工干预,能取得更优于算法的推荐效果。
2.离线算法
累计一定量的用户行为数据和订单销售数据后,对资源特征进行抽取,完善用户画像和商品标签。通过算法的召回,为用户推荐关联度更高的商品,提高商品分发效率。需要注意的是,新用户、新商品的相关推荐,需要结合兜底算法召回的商品一起混排,以期获得更好的商品分发效果
3.实时推荐
随着网站数量级的增长,为了更好的照顾用户体验,需要退供实时推荐服务,需要结合其它算法提高推荐的关联性及时效性
4.算法桶竞赛
跨境电商业务的复杂性,导致同一个算法桶无法满足所有区域、语言、季节、文化节日的高效数据分发。在搜索推荐在网站销量占比较高时,需要按照不同的销售思路搭建不同的算法桶,让算法桶之间形成竞赛模式,以期应对更多更精细化的业务场景
1.都是实库,备货海外仓,不卖虚库
2.一个本地仓就卖一个国家
3.一个站的可售sku就是几千个
4.展示销量最好的sku,进去后详情页面是spu
未登录的情况下,亚马逊隐藏【猜你喜欢】和【买了又买】的推荐位置,只保留商详页的【看了又看】
在全部商品池基数上,继续数据过滤,过滤条件如下
排除规则
评论数量、收藏数量。加权比重:10%
看了又看 = 【浏览此商品的顾客也同事浏览】
1.召回逻辑
1.1 过滤
在全部商品池基数上,继续数据过滤,过滤条件如下
2.个性化推荐
2.1 用户行为推荐
2.2 补充规则
3.排除规则
4.排序权重(权重值待定)
埋点的基本流程:
1.设计埋点方案
2.埋点代码植入
3.埋点测试
4.线上数据跟踪
埋点方案类型:
1.点击埋点方案:产品标识、埋点位置、页面名称、埋点标识、埋点参数、订单参数等
2.页面埋点方案
3.曝光埋点方案
曝光埋点:
有效曝光的定义要科学合理。关于有效曝光可以从空间和时间两个维度去定义,基本可以保证数据的可参考性。
1.空间上,有效曝光指曝光的位置、曝光区域的大小;
2.时间上,有效曝光指曝光的时机、曝光的时长、重复上报的时机。
源数据指标
加工指标
2.1 总体运营指标
2.1.1 流量运营类指标
UV,即User View,指的是不重复的用户数,其包括view_uv和click_uv,这两个指标在电商运营的过程中的作用很大,往往指导着策略的迭代方向
说明:这里统计的不重复的用户数是根据全站的访问用户唯一ID进行去重得到的,在实际的业务场景中,用户ID不仅包含userid,还会有设备ID等唯一表示,因为同一个账号可能会在不同的设备上登录
PV,即Page View,指的是页面的统计指标,包括view_pv和click_pv
说明:pv指标是会进行累加的,因此pv要比uv大很多
PV_CTR,即页面曝光的点击率(click through rate),pv_ctr = pv_click / pv_view
UV_CTR,即页面曝光对应的用户点击率,uv_ctr = uv_click / uv_view
2.1.2 订单产生效率指标
总下单次数,即用户在平台的订单次数之和,分为pv和uv
总下单量,即用户在平台的订单量之和(因为一个订单可能包括多个商品),一般统计总下单量是指的pv维度的值。
PV_CVR,即页面点击对应的转化率(vonversion rate),pv_cvr = pv_order / pv_click
UV_CVR,即页面点击对应的用户转化率,uv_cvr = uv_order / uv_click
PV_CXR,即页面曝光对应的成单率,pv_cxr = pv_order / pv_view
UV_CXR,即页面曝光对应的用户成单率,uv_cxr = uv_order / uv_view
2.1.3 总体销售业绩指标
GMV,即网站成交额(Gross Merchandise Volume),即只要电商平台上有用户进行下单,生成了订单号,便计算在GMV里,与下面的GTV进行区别,该指标主要是应用在京东、淘宝这样的平台上
GTV,即网站的总交易额(Gross Transaction Value),跟GMV定义一致,只不过是针对的不同的商业模式,一般会用在美团、饿了么这种平台上
销售金额,销售金额是货品出售的金额总额(注:无论这个订单最终是否成交,有些订单下单未付款或取消,都算GMV或者GTV,销售金额一般只指实际成交金额,所以,GMV、GTV的数字一般比销售金额大)
客单价,即订单金额与订单数量的比值,同样根据商品的原价、实付价格分为原价客单价、实付客单价
单均价,即订单金额与订单总量的比值(一个订单算一次,但是一个订单中会有多个商品,按照之际商品个数进行统计的为订单总量),同样根据商品的原价、实付价格分为原价单均价、实付单均价
RPM,千次展示收入(Revenue Per Mille),按照用户进行统计,即对1000个用户有曝光,产生的收入,同样会根据商品的原价和实付价格分为原价RPM、实付RPM
2.1.4 整体指标
2.2 网站流量指标
2.2.1 流量规模类指标
常用的流量规模类指标包括独立访客数(UV)、页面访问数(PV)等,参考2.1.1。
2.2.2 流量成本类指标
单位访客获取成本,英文表示为:CAC(Customer acquisition cost)该指标指在流量推广中,广告活动产生的投放费用与广告活动带来的独立访客数的比值。单位访客成本最好与平均每个访客带来的收入以及这些访客带来的转化率进行关联分析。若单位访客成本上升,但访客转化率和单位访客收入不变或下降,则很可能流量推广出现问题,尤其要关注渠道推广的作弊问题
2.2.3 流量质量类指标
2.2.4 会员类指标
会员类指标也可以应用到普通用户身上,比如普通用户的注册数目、活跃用户数、活跃用户占比、普通用户复购率、普通用户平均下单次数、普通用户的留存率、回购率等。比如我们看抖音会什么估值那么高,主要还是因为你用户基数、活跃用户数,底盘大了才能基于用户做一些创造利益的事情。
2.3 网站销售(转化率)类指标
2.3.1 购物车类指标
2.3.2 下单类指标
参考2.1.2 和2.1.3。
2.3.3 支付类指标
基础统计类指标,包括一定统计周期内支付金额、支付买家数和支付商品数。
转化类指标。包括浏览-支付买家转化率(支付买家数/网站访客数)、下单-支付金额转化率(支付金额/下单金额)、下单-支付买家数转化率(支付买家数/下单买家数)和下单-支付时长(下单时间到支付时间的差值)。
2.4 客户价值类指标
客单价、单均价等,参考2.1.3
新客类指标:
老客类指标:
重复购买率可以按两种口径来统计:第一种,从客户数角度,重复购买率指在一定周期内下单次数在两次及两次以上的人数与总下单人数之比,如在一个月内,有100个客户成交,其中有20个是购买两次及以上,则重复购买率为20%;第二种,按交易计算,即重复购买交易次数与总交易次数的比值,如某月内,一共产生了100笔交易,其中有20个人有了二次购买,这20人中的10个人又有了三次购买,则重复购买次数为30次,重复购买率为30%
2.5 商品类指标
产品总数指标:
产品优势性指标:
品牌存量指标:
上架:
首发:
流量类指标:
订单类指标:
转化类指标:
2.6 市场营销活动指标
市场营销活动指标。包括新增访问人数、新增注册人数、总访问次数、订单数量、下单转化率以及ROI。其中,下单转化率是指活动期间,某活动所带来的下单的次数与访问该活动的次数之比。投资回报率(ROI)是指,某一活动期间,产生的交易金额与活动投放成本金额的比值
广告投放指标。包括新增访问人数、新增注册人数、总访问次数、订单数量、UV订单转化率、广告投资回报率。其中,下单转化率是指某广告所带来的下单的次数与访问该活动的次数之比。投资回报率(ROI)是指,某广告产生的交易金额与广告投放成本金额的比值
2.7 风控类指标
买家评价指标。包括买家评价数,买家评价卖家数、买家评价上传图片数、买家评价率、买家好评率以及卖家差评率。其中,买家评价率是指某段时间参与评价的卖家与该时间段买家数量的比值,是反映用户对评价的参与度,电商网站目前都在积极引导用户评价,以作为其他买家购物时候的参考。买家好评率指某段时间内好评的买家数量与该时间段买家数量的比值。同样,买家差评率指某段时间内差评的买家数量与该时间段买家数量的比值。尤其是买家差评率,是非常值得关注的指标,需要监控起来,一旦发现买家差评率在加速上升,一定要提高警惕,分析引起差评率上升的原因,及时改进
买家投诉类指标。包括发起投诉(或申诉),撤销投诉(或申诉),投诉率(买家投诉人数占买家数量的比例)等。投诉量和投诉率都需要及时监控,以发现问题,及时优化
2.8 市场竞争类指标
市场份额相关指标,包括市场占有率、市场扩大率和用户份额。市场占有率指电商网站交易额占同期所有同类型电商网站整体交易额的比重;市场扩大率指购物网站占有率较上一个统计周期增长的百分比;用户份额指购物网站独立访问用户数占同期所有B2C购物网站合计独立访问用户数的比例
网站排名,包括交易额排名和流量排名。交易额排名指电商网站交易额在所有同类电商网站中的排名;流量排名指电商网站独立访客数量在所有同类电商网站中的排名
比如召回,我们更多的是关注分召回源的统计指标,排序则是关注不同模型(AB实验)的统计指标。两者共同需要关注的指标有:曝光次数(PV、UV维度)、点击次数(PV、UV维度)、订单次数(PV、UV维度)、曝光点击率(PV、UV维度)、点击下单率(PV、UV维度)、曝光下单率(PV、UV维度)、总的优惠后交易额、总的实际交易额、RPM(PV、UV维度)、客单价、单均价等。
在进行统计展示时一般是使用如下的形式进行展示,然后将你关注的指标放入表格即可,然后进行固化,方便每天查看数据。
PV (Page View): 流量
UV 独立访客,一台电脑24小时以内访问N次计为1次
CTR=点击量/展现量
CVR=转化量/点击量
DAU:(Daily Active User)日活跃用户数量。常用于反映网站、互联网应用或网络游戏的运营情况。DAU通常统计一日(统计日)之内,登录或使用了某个产品的用户数(去除重复登录的用户),这与流量统计工具里的访客(UV)区别为排重方式的不同,DAU是日活跃用户数,通过用户ID排重统计数据,UV是独立访客。通过用户IP排重统计数据。。
IPV:商品详情页流量
IPV_UV:是浏览过商品详情的独立访问者,注意:IPV_UV也是不能累加的
CPA、CPC、CPT、CPM、CVR、CTR、PV、UV相关计算公式:
ROI=订单额/消费量(即广告费用)=(单均额转化量)/(CPA转化量)=单均额/CPA
CTR=点击量/展现量
CVR=转化量/点击量
CPM=(消费量/展现量)1000
CPA=消费量/转化量=(CPC点击量)/(CVR*点击量)=CPC/CVR
CPC=消费量/点击量
CPT(Cost Per Time):主要通过时间进行收费,多数以包月,星期进行计算
DAU:(Daily Active User)日活跃用户数量。常用于反映网站、互联网应用或网络游戏的运营情况。DAU通常统计一日(统计日)之内,登录或使用了某个产品的用户数(去除重复登录的用户),这与流量统计工具里的访客(UV)概念相似。
MAU:(monthly active users)月活跃用户人数。是在线游戏的一个用户数量统计名词,数量越大意味着玩这款游戏的人越多。
PCU:(Peak concurrent users )最高同时在线玩家人数。
ARPU:(Average Revenue Per User)即每用户平均收入,用于衡量电信运营商和互联网公司业务收入的指标。
KPI:关键绩效指标法,是企业绩效考核的方法之一,其特点是考核指标 围绕关键成果领域进行选取。
MOU:平均每户每月通话时间(minutesof usage)。
扩展资料:
淘宝中常用标签的数据来源是宝贝数据模板,宝贝数据模板是以宝贝作为元数据。
包括:
1、人群指数:购买该宝贝的人群性别、年龄、地域、星座、消费层级等分布。
2、热销比数:购买该宝贝的近7天销量、近30天销量。
3、价格指数:购买该宝贝价格的平均值。
4、相关款式:购买了该宝贝的人还买了同类目下的其他宝贝。
5、相关风格:和该宝贝在同CPV下的宝贝。
6、搜索指数:指数化的搜索量,反映搜索趋势,不等同于搜索次数
7、成交指数:由搜索带来的成交量,并进行指数化处理。反映成交趋势,不等同于成交量或成交金额
8、热销指数:成交宝贝的标题中包含该关键词的商品,成交笔数的指数化
9、倾向指数:突显该人群的购物偏好并结合热销指数综合计算得出
10、喜好度(TGI):反映不同人群对该搜索词的偏好程度,数值越大则偏好程度越高。数据为100时,表示无明显偏好。该数值不受人群基数的影响。
(例如:某搜索词的搜索人群中喜好度最高的星座是“白羊座”,则说明“白羊座”比其他星座更喜欢搜索该词。)
做网络营销的人,我们要知道以下常见名词解释:
CPC (Cost Per Click): 按点击计费(平均点击价格)
CPA (Cost Per Action): 按成果数计费
CPM (Cost Per Mille): 按千次展现计费(千次展现价格)
CVR (Click Value Rate): 转化率,衡量CPA广告效果的指标
CTR (Click Through Rate): 点击率
CPV是英文短句Cost Per View的缩写,意思是按照显示效果付费,也就是说,cpv广告就是展示广告,就是广告联盟通过实际的广告显示数量来计费。也就是说,独立IP显示一次就计 费一次,计费方式非常简单。
PV (Page View): 流量
UV 独立访客,一台电脑24小时以内访问N次计为1次
ADPV (Advertisement Page View): 载有广告的pageview流量
ADimp (ADimpression): 单个广告的展示次数
PV单价: 每PV的收入,衡量页面流量变现能力的指标
RPS (Revenue Per Search): 每搜索产生的收入,衡量搜索结果变现能力指标
ROI: 投资回报率(ROI)是指通过投资而应返回的价值,它涵盖了企业的获利目标。利润和投入的经营所必备的财产相关,因为管理人员必须通过投资和现有财产获得利润。又称会计收益率、投资利润率。
GMV指标通常称为网站成交金额,属于电商平台企业成交类指标,主要指拍下订单的总金额,包含付款和未付款两部分。
冷启动问题主要分为3类:
对于这3种不同的冷启动问题,有不同的解决方法。一般来说,可以参考如下解决方案。
GBDT:梯度提升决策树
GBDT!深入浅出详解梯度提升决策树
GBDT(Gradient Boosting Decision Tree),即梯度提升决策树;LR(Logistic Regression),即逻辑回归。使用“GBDT+LR”算法预测点击率需要两个数据:特征和权重。
特征比较好理解,比如一个用户的年龄、地址,该用户近期浏览过某品类的商品的次数,加购过这个品类的商品次数类似等,都是特征。
权重是由人工制定并通过数据再不断优化的参数。比如一个用户如果浏览过这个品类,我们觉得用户有40%的可能喜欢该品类;一个用户如果加购过这个品类,我们觉得用户有60%的可能喜欢该品类。这里面的40%和60%,就是我们设定的权重。
GBDT模型的具体操作可以理解为:不断对一个用户提问。
比如向用户提问:是女性用户吗?
如果答案为“是”,再问:喜欢毛衣吗?
如果答案为“是”,再问:喜欢哪个价格段的毛衣?
这些提问按照层级组织起来。对于不同答案再提出不同的新问题,直到最后得出最终答案:用户对这个商品满意吗?这就是GBDT模型。该模型天然可以肩负起组合特征的任务,第一个问题相当于树的根节点,最后得到的答案相当于叶子节点,整条提问路径就是若干个特征的组合。
GBDT的优点是自动挖掘用户的特征,得到最佳的特征组合,省去构建特征工程的烦琐工作。
【机器学习】逻辑回归(非常详细)
逻辑回归模型(Logistic Regression, LR)基础
逻辑回归(logistics regression)
逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种,通过历史数据的表现对未来结果发生的概率进行预测;例如,我们可以将用户喜欢某商品的概率设置为因变量,将用户的特征属性,例如性别,年龄,注册时间、偏好品类等设置为自变量。根据特征属性预测用户对某件商品喜欢的的概率。
协同过滤(collaborative filtering)是一种在推荐系统中广泛使用的技术。该技术通过分析用户或者事物之间的相似性,来预测用户可能感兴趣的内容并将此内容推荐给用户。这里的相似性可以是人口特征的相似性,也可以是历史浏览内容的相似性,还可以是个人通过一定机制给与某个事物的回应。比如,A和B是无话不谈的好朋友,并且都喜欢看电影,那么协同过滤会认为A和B的相似度很高,会将A喜欢但是B没有关注的电影推荐给B,反之亦然。
协同过滤推荐分为3种类型:
基于用户(user-based)的协同过滤(UserCF)
基于物品(item-based)的协同过滤(ItemCF算法)
基于模型(model-based)的协同过滤 (ModelCF算法)
本文主要讲述基于用户协同过滤算法的原理以及代码实现。
算法原理
UserCF算法主要是考虑用户与用户之间的相似度,给用户推荐和他兴趣相似的其他用户喜欢的物品。俗话说"物以群分,人以类聚",人们总是倾向于跟自己志同道合的人交朋友。同理,你朋友喜欢的东西你大概率也可能会喜欢,UserCF算法正是利用了这个原理。举个例子,如果要给一个用户A推荐物品,可以先找到与A最为相似的用户B,接着获取用户B最喜欢的且用户A没有听说过的物品,并预测用户A对这些物品的评分,从中选取评分最高的若干个物品推荐给用户A。
从上述描述可以知道,UserCF算法的主要步骤如下:
找到与目标用户兴趣相似的用户集合
找到这个集合中的用户最喜欢的,且目标用户还未接触过的物品推荐给目标用户
基于物品的协同过滤算法(ItemCF)原理以及代码实践
itemCF算法
协同过滤(collaborative filtering)是一种在推荐系统中广泛使用的技术。该技术通过分析用户或者事物之间的相似性,来预测用户可能感兴趣的内容并将此内容推荐给用户。这里的相似性可以是人口特征的相似性,也可以是历史浏览内容的相似性,还可以是个人通过一定机制给与某个事物的回应。比如,A和B是无话不谈的好朋友,并且都喜欢看电影,那么协同过滤会认为A和B的相似度很高,会将A喜欢但是B没有关注的电影推荐给B,反之亦然。
协同过滤推荐分为3种类型:
算法原理
ItemCF算法是目前业界使用最广泛的算法之一,亚马逊、Netflix、YouTube的推荐算法的基础都是基于ItemCF。
不知道大家平时在网上购物的时候有没有这样的体验,比如你在网上商城下单了一个手机,在订单完成的界面,网页会给你推荐同款手机的手机壳,你此时很可能就会点进去浏览一下,顺便买一个手机壳。其实这就是ItemCF算法在背后默默工作。ItemCF算法给用户推荐那些和他们之前喜欢的物品相似的物品。因为你之前买了手机,ItemCF算法计算出来手机壳与手机之间的相似度较大,所以给你推荐了一个手机壳,这就是它的工作原理。看起来是不是跟UserCF算法很相似是不是?只不过这次不再是计算用户之间的相似度,而是换成了计算物品之间的相似度。
由上述描述可以知道ItemCF算法的主要步骤如下:
计算物品之间的相似度
根据物品的相似度和用户的历史行为给用户生成推荐列表
那么摆在我们面前的第一个问题就是如何计算物品之间的相似度,这里尤其要特别注意一下:
ItemCF算法并不是直接根据物品本身的属性来计算相似度,而是通过分析用户的行为来计算物品之间的相似度。
什么意思呢?比如手机和手机壳,除了形状相似之外没有什么其它的相似点,直接计算相似度似乎也无从下手。但是换个角度来考虑这个问题,如果有很多个用户在买了手机的同时,又买了手机壳,那是不是可以认为手机和手机壳比较相似呢?
FP的全称是Frequent Pattern,在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。所谓前缀树,是一种存储候选项集的数据结构,树的分支用项名标识,树的节点存储后缀项,路径表示项集