@Macux
        
        2018-02-01T07:51:45.000000Z
        字数 1483
        阅读 1107
    
    寻找可能有用的反作弊规则
未分类
实现过程:
- 避免白名单的影响: 
- 不使用hive表中的 mb_char_3,基于在线反作弊判断的规则,统计channel-offer的在线作弊安装占比。
 
- 统计的时间窗口:2017.08.01 ~ 2017.08.07
 
- 计划完成时间:2017.12.26
 
 
- 衡量模型的标准优化: 
- 编写加权相关系数算法,以channel-offer的安装量为权重,计算模型输出的异常得分和作弊安装占比的加权相关系数。
 
- 计划完成时间:2017.12.26
 
 
- 模型优化的目标: 
- 加权相关系数的绝对值 >= 0.85。 
 
- 预计完成时间:2018.01.05
 
 
- 模型优化的思路: 
- 添加占比型特征,预计完成时间:2017.12.28
 
- 添加地区维度的特征,预计完成时间:2017.12.29
 
- 添加event维度的特征,预计完成时间:2017.12.30
 
 
- 找出channel_offer_outlier: 
- channel-offer_outlier的过滤条件: 
1.1 安装量大于阈值 and 异常得分降序排列TOP 10; 
1.2 安装量大于阈值 and 异常得分升序排列TOP 10; 
- 预计完成时间:0.5天
 
 
寻找模型判断异常所依赖的特征:
- 寻找逻辑: 
- [, ]是理论上大多数样本在上的值域。
 
- 模型判断channel_offer_outlier是异常的必要条件是: 
存在一个,channel_offer_outlier在上的取值在的[, ]之外,其中和为的均值和标准差。 
 
寻找方式:
- 计算的[, ]
 
- 如果存在一个channel_offer_outlier_h在上的取值,不在[, ]内,那么为潜在有用特征。
 
 
预计用时:1-2天
 
- 分析潜在有用特征: 
- 统计特征在不同数据区间的channel-offer占比。
 
- 按照占比,可视化潜在有用特征在channel-offer维度上的分布。
 
- 根据分布形状判断是否存在少量channel-offer,在该特征上的表现是明显异于其它channel-offer。
 
- 验证异常: 
- 多统计几个时间窗口的数据,判断这种异常是否短暂存在,还是持续存在?
 
- 这种异常是否可以从业务逻辑上进行解释,并作为反作弊判断的依据。
 
 
- 计划安排: 
- 按照以上方法进行分析,看看情况怎么样。
 
- 根据产出的结果确定是否继续做。
 
- 预计用时:待定。需要先做几个特征才知道具体的用时。
 
 
 
- 基于潜在有用特征,产出潜在可行的反作弊规则: 
- 产出方法:基于可视化和业务判断,找出在数学和业务上都存在异常数据的特征,并提供对应的数据证据。
 
- 数据证据形式:可视化分布、异常的具体数据说明、业务逻辑说明
 
- 评价标准:人工评价
 
- 预计用时:0.5-2天
 
 
- 模型验证思路 
- 模型的有效性,是帮助发现有用的特征。
 
- 有用特征的数据表现: 
- 存在异常channel-offer在上的表现落在[, ]区间外。
 
- 基于人工分析特征分布,存在异常表现。
 
- 异常表现不是暂时性的。
 
 
- 有用特征的业务表现: 
- 基于业务逻辑分析,基于上表现异常的channel-offer,可以认为是具有大概率的作弊嫌疑。
 
 
- 如果模型无法输出有用的特征,则需要进行优化。
 
 
- 模型优化思路 
- 优化模型的特征空间: 
- 添加占比型特征,预计用时:0.5-1天
 
- 添加地区维度的特征,预计用时:0.5-1.5天
 
- 添加event维度的特征,预计用时:1-3天
 
 
- 增加数据的时间跨度,预计用时:0.5-1天