@wuxin1994
2017-07-16T22:37:32.000000Z
字数 457
阅读 733
吴帆0716
学习笔记17
- 准备下周三的《DeepLearning》考试,写完了《在线社交网络和数据挖掘》的论文。
- 和张罡师兄讨论了他的工作,主要为以下内容:
1)是对于得到的 Netflow 数据,根据告警 IP 信息预处理数据,滤出无用的流信息。因为原始netflow数据太多,量级比较大;
2)然后将剩下的 Netflow 数据根据端口等信息确定目的 IP 是否是服务器;
3)然后根据服务器节点的流数据,对其进行特征提取,根据数据挖掘算法得出其为botnet节点的概率。
但是目前对于这个任务还有几个问题:
1)目前分析得到某个节点是否为botnet节点的结果无法验证,因此在得到结果之后,无法证明是否用算法的结果比普通结果更好。
2)从实际意义上来讲,师兄说可以考虑算出某个节点为botnet节点之后,取概率最高的n个节点,进行人为验证。相比于直接人为判别,可以提高判别效率。
3)算法上,用决策树不能得到最终的概率值,考虑神经网络分类模型,因为原始数据不带标签,因此考虑聚类算法。对原始数据的进一步处理和特征字段的提取还需要通过实验测试。