@Emptyset
2016-01-08T04:41:58.000000Z
字数 2496
阅读 1574
数据挖掘
提供中华万年历用户访问文章/说说的记录,预测20151128-20151130这三天用户的点赞/踩记录
dm_page_view_data
中去除dm_train
里不存在的dev_id
dm_train
中去除dm_page_view_data
里不存在但是dm_page_view_data
/filter_user.py
目前我们要解决的问题是求,假设有d个特征
其中,即对于某用户,对待某篇post满足这些特征的情况下它属于分类的后验概率
同样假设各个特征之间相互独立
训练集:20151101-20151124的数据
测试集:20151125-20151127三天数据
采用特征1-6:
去除特征6: genResult2.py
结论:特征6对召回率和正确率并无影响
去除特征5,6: genResult3.py
在过滤用户后的测试集上测试结果:
在原始测试集上的测试结果:
precision = 0.441646191646
recall = 0.0687393640414
F1-Measure = 0.118962921293
结论:F5会使得正确率降低,召回率增加
去除特征4: genResult4.py