@HaomingJiang
2016-06-07T23:37:38.000000Z
字数 1176
阅读 1865
数据挖掘导论
笔记
examples: fraud detection, invader detection, habitate maladjustment, public health, medical secure.
来源不同
outlier:和其他的差别相当大,以至于怀疑不是相同机制产生的
自然变异
数据测量和收集误差
Based on model, 如利用分类器,利用模型拟合好正常点,其他的就是异常点。
Based on Distance
Based on Density
supervised:注意异常类特别稀少(提供了标号)
unsupervised:给出评分或标号,然后判断。不过,若出现许多相似的异常值,就没法识别了。(没提供标号)
semisupervised:训练集中不含异常信息。
离群点,即出现概率很低的点
1. 识别具体分布
2. 使用的属性个数,有些是单个的,有的是多个的
3. 混合分布
基于正太的方法:。。。略
基于混合分布的办法,即假设异常点也有一个分布,通常设为均匀分布。然后可以看看怎么分,可以最大化极大似然。
使用k距离,k的选择也是玄学,当然也可以用平均的来
O(m^2)太慢了,不能处理密度不同的时候的情况
得分为密度的逆
一个常用的密度定义为k个最近邻的平均距离的倒数or给定半径内的点的个数,参数选择是个玄学
基于相对平均密度
对于具有不同密度的情况也有较好的结果
复杂度较高,k的选择是个玄学
丢弃远离其他簇的小簇,需要设定距离和大小的阈值。
也可以看对目标函数的改进。
可以定义离群点为不强属于任何一个簇的点。(如密度太低,太远,etc.)
算法效率高。不过聚类的效果很影响他的效果。