@Macux
2018-02-01T07:51:45.000000Z
字数 1483
阅读 987
寻找可能有用的反作弊规则
未分类
实现过程:
- 避免白名单的影响:
- 不使用hive表中的 mb_char_3,基于在线反作弊判断的规则,统计channel-offer的在线作弊安装占比。
- 统计的时间窗口:2017.08.01 ~ 2017.08.07
- 计划完成时间:2017.12.26
- 衡量模型的标准优化:
- 编写加权相关系数算法,以channel-offer的安装量为权重,计算模型输出的异常得分和作弊安装占比的加权相关系数。
- 计划完成时间:2017.12.26
- 模型优化的目标:
- 加权相关系数的绝对值 >= 0.85。
- 预计完成时间:2018.01.05
- 模型优化的思路:
- 添加占比型特征,预计完成时间:2017.12.28
- 添加地区维度的特征,预计完成时间:2017.12.29
- 添加event维度的特征,预计完成时间:2017.12.30
- 找出channel_offer_outlier:
- channel-offer_outlier的过滤条件:
1.1 安装量大于阈值 and 异常得分降序排列TOP 10;
1.2 安装量大于阈值 and 异常得分升序排列TOP 10;
- 预计完成时间:0.5天
寻找模型判断异常所依赖的特征:
- 寻找逻辑:
- [, ]是理论上大多数样本在上的值域。
- 模型判断channel_offer_outlier是异常的必要条件是:
存在一个,channel_offer_outlier在上的取值在的[, ]之外,其中和为的均值和标准差。
寻找方式:
- 计算的[, ]
- 如果存在一个channel_offer_outlier_h在上的取值,不在[, ]内,那么为潜在有用特征。
预计用时:1-2天
- 分析潜在有用特征:
- 统计特征在不同数据区间的channel-offer占比。
- 按照占比,可视化潜在有用特征在channel-offer维度上的分布。
- 根据分布形状判断是否存在少量channel-offer,在该特征上的表现是明显异于其它channel-offer。
- 验证异常:
- 多统计几个时间窗口的数据,判断这种异常是否短暂存在,还是持续存在?
- 这种异常是否可以从业务逻辑上进行解释,并作为反作弊判断的依据。
- 计划安排:
- 按照以上方法进行分析,看看情况怎么样。
- 根据产出的结果确定是否继续做。
- 预计用时:待定。需要先做几个特征才知道具体的用时。
- 基于潜在有用特征,产出潜在可行的反作弊规则:
- 产出方法:基于可视化和业务判断,找出在数学和业务上都存在异常数据的特征,并提供对应的数据证据。
- 数据证据形式:可视化分布、异常的具体数据说明、业务逻辑说明
- 评价标准:人工评价
- 预计用时:0.5-2天
- 模型验证思路
- 模型的有效性,是帮助发现有用的特征。
- 有用特征的数据表现:
- 存在异常channel-offer在上的表现落在[, ]区间外。
- 基于人工分析特征分布,存在异常表现。
- 异常表现不是暂时性的。
- 有用特征的业务表现:
- 基于业务逻辑分析,基于上表现异常的channel-offer,可以认为是具有大概率的作弊嫌疑。
- 如果模型无法输出有用的特征,则需要进行优化。
- 模型优化思路
- 优化模型的特征空间:
- 添加占比型特征,预计用时:0.5-1天
- 添加地区维度的特征,预计用时:0.5-1.5天
- 添加event维度的特征,预计用时:1-3天
- 增加数据的时间跨度,预计用时:0.5-1天