@Billy-The-Crescent 2019-06-16T13:00:09.000000Z 字数 1898 阅读 775

数据挖掘第六章离群点分析

数据挖掘 离群点分析

第三章目录：

数据挖掘第六章离群点分析
- 1 基本概念
- 2 离群点检测方法

1 基本概念

离群点: 在数据集中偏离大部分数据的数据，使人怀疑这些数据的偏离并非由随机因素产生，而是产生于完全不同的机制。是一种无监督的数据挖掘方法。
离群点是与数据集中其余部分不服从相同统计模型的数据。
离群点的特殊意义:: 离群点通常作为噪音而忽略，许多数据挖掘算法试图降低或消除离群点的影响。

离群点挖掘：

定义在一个数据集中什么数据是不一致或离群的数据

找出所定义的离群点的有效挖掘方法。离群点挖掘问题可以概括为如何度量数据偏离的程度和有效发现离群点的问题。

为什么会有离群点？

测量、输入错误或系统运行错误所致

数据内在特性所决定

客体的异常行为所致

离群点挖掘算法只能发觉异常点，但是对于异常的处理需要由领域专家来决策

2 离群点检测方法

定义离群点需要指明如何使用多个属性的值确定一个对象是否离群。

全局观点和局部观点：: 一个对象可以相对于所有的对象看上去是离群，但它相对于它的局部近邻不是离群的。

点的离群程度由离群点得分和离群因子来定义。

离群点分析的前提假设：数据集中被认为正常的点数远远超过被认为离群的点数。

2.1 基于统计的方法

假设所给定的数据集存在一个分布或概率模型(例如：正态分布、泊松分布)，然后将与模型不一致(即分布不符合)的数据标识为离群数据。

应用基于统计分布的离群点检测方法依赖于

数据分布

参数分布

期望离群点的数目(置信度区间)

概率分布模型通过估计用户指定的分布的参数，由数据创建。然后通过这个概率分布模型得到所有点出现的概率。

设属性x取自具有均值为0和标准差为1的正态分布。如果属性值x满足 $P(|x|>=c)=alpha$ ，其中c是一个选定的常量，则x以概率 $1-\alpha$ 为离群点。

核心：参数估计、置信区间

可以将所有正态分布转化为标准正态分布

$x_n = \frac{x-\mu}{\sigma}$

缺点：

大部分统计方法是针对单个属性的，对于多元数据技术方法较少。

在许多情况下，数据分布是未知的。

对于高维数据，很难估计真实的分布。

不适合混合类型数据

2.2 基于距离的离群点检测

如何一个对象远离大部分其他对象，那么它是离群的。

优点：确定数据集的有意义的邻近性度量比确定它的统计分布更容易，综合了基于分布的思想，克服了基于分布的主要缺陷。

方法1：依据点的邻域中包含的对象来判定离群点。
方法2：依据k个最近邻距离的大小来判定离群点。

到k-最近邻的距离的计算

一个对象的离群点得分由到它的k-最近邻的距离给定。

k-距离：: 一个对象p的k-距离计算k-distance(p)，在样本空间中，存在对象o，它与对象p之间的距离基座d(p,o)。如果满足以下两个条件，我们则认为k-distance(p)=d(p,o):
(1) 在样本空间中，至少存在k个对象q，使得d(p,q)<=d(d,o)；
(2) 在样本空间中，至多存在k-1个对象q，使得d(p,q)

即在k-distance(p)范围内有k-1个对象，而在k-distance(p)边界至少有一个对象(可能不止一个)。

其中，在k-distance(p)范围内的所有对象的集合称为N(x,k)

点x的离群因子定义为：: $OF1(x,k) = \frac{\sum_{y\in N(x,k)}{distance(x,y)}}{|N(x,k)|}$

基于距离的离群点检测的优缺点：

检测结果对参数k的选择较敏感

时间复杂度为，难以用于大规模数据集，这里n为数据集的规模；

需要有关离群因子阈值或数据集中离群点个数的先验知识，在实际使用中有时由于先验知识的不足会造成一定的困难。

因为它使用全局阈值，不能处理不同密度区域的数据集。

2.3 基于相对密度的离群点检测

当数据集含有多种分布或数据集由不同密度子集混合而成时，数据是否离群不仅仅取决于它与周围数据的距离大小，而且与邻域内的密度状况有关。

定义对象的局部邻域密度：

$density(x,k) = (\frac{\sum_{y\in N(x,k)}{distance(x,y)}}{|N(x,k)|})^{-1}$

相对密度：

$relative density(x,k) = \frac{\sum_{y\in N(x,k)}{density(y,k)}/|N(x,k)|}{density(x,k)}$

$OF2(x,k) = relative density(x,k)$

2.4 基于聚类的离群点检测

先聚类，再计算对象或簇的离群因子，将离群因子大的对象或簇判断为离群点。