@Billy-The-Crescent
2019-06-16T21:00:09.000000Z
字数 1898
阅读 391
数据挖掘
离群点分析
数据挖掘技术与原理主目录:
目录
第三章目录:
离群点挖掘:
- 定义在一个数据集中什么数据是不一致或离群的数据
- 找出所定义的离群点的有效挖掘方法。离群点挖掘问题可以概括为如何度量数据偏离的程度和有效发现离群点的问题。
为什么会有离群点?
- 测量、输入错误或系统运行错误所致
- 数据内在特性所决定
- 客体的异常行为所致
离群点挖掘算法只能发觉异常点,但是对于异常的处理需要由领域专家来决策
定义离群点需要指明如何使用多个属性的值确定一个对象是否离群。
点的离群程度由离群点得分和离群因子来定义。
离群点分析的前提假设:数据集中被认为正常的点数远远超过被认为离群的点数。
假设所给定的数据集存在一个分布或概率模型(例如:正态分布、泊松分布),然后将与模型不一致(即分布不符合)的数据标识为离群数据。
应用基于统计分布的离群点检测方法依赖于
- 数据分布
- 参数分布
- 期望离群点的数目(置信度区间)
概率分布模型通过估计用户指定的分布的参数,由数据创建。然后通过这个概率分布模型得到所有点出现的概率。
设属性x取自具有均值为0和标准差为1的正态分布。如果属性值x满足,其中c是一个选定的常量,则x以概率为离群点。
核心:参数估计、置信区间
可以将所有正态分布转化为标准正态分布
缺点:
- 大部分统计方法是针对单个属性的,对于多元数据技术方法较少。
- 在许多情况下,数据分布是未知的。
- 对于高维数据,很难估计真实的分布。
- 不适合混合类型数据
如何一个对象远离大部分其他对象,那么它是离群的。
优点:确定数据集的有意义的邻近性度量比确定它的统计分布更容易,综合了基于分布的思想,克服了基于分布的主要缺陷。
方法1:依据点的邻域中包含的对象来判定离群点。
方法2:依据k个最近邻距离的大小来判定离群点。
到k-最近邻的距离的计算
一个对象的离群点得分由到它的k-最近邻的距离给定。
即在k-distance(p)范围内有k-1个对象,而在k-distance(p)边界至少有一个对象(可能不止一个)。
其中,在k-distance(p)范围内的所有对象的集合称为N(x,k)
基于距离的离群点检测的优缺点:
- 检测结果对参数k的选择较敏感
- 时间复杂度为 ,难以用于大规模数据集,这里n为数据集的规模;
- 需要有关离群因子阈值或数据集中离群点个数的先验知识,在实际使用中有时由于先验知识的不足会造成一定的困难。
- 因为它使用全局阈值,不能处理不同密度区域的数据集。
当数据集含有多种分布或数据集由不同密度子集混合而成时,数据是否离群不仅仅取决于它与周围数据的距离大小,而且与邻域内的密度状况有关。
定义对象的局部邻域密度:
相对密度:
先聚类,再计算对象或簇的离群因子,将离群因子大的对象或簇判断为离群点。