@Billy-The-Crescent
2019-06-11T14:57:49.000000Z
字数 4484
阅读 445
数据挖掘
数据处理
预处理
规范化
数据挖掘技术与原理主目录:
目录
第二章目录:
属性类型:定性的(优良中差;男女;红黄蓝)、定量的(60,80,95)
数据集的类型
事务数据
是一种特殊类型的记录数据,其中每一个记录涉及一个项的集合。比如顾客一次购买的商品的集合,每一个商品就是一个项。数据统计又叫汇总统计,用单个数或数的小集合(比如身高体重)来捕获大的数据集的各种属性特征。通常需要数据的中心趋势和离散程度特征。
中心趋势度量
包括均值、中位数、众数和中列数(数据集里最大值和最小值的算术平均)。
离散程度度量
包括四分位数极差(四分之三分位数和四分之一分位数的差)和方差。
均值(mean):算术平均、加权平均、截断均值
截断均值
指指定一个百分数p,丢弃高端和低端(p//2)%的数据,然后用常规方法计算平均值得到的结果。
中位数是p=100%的截断均值,而标准均值是p=0%的截断均值。
极差 =
方差()
方差对离群值特别敏感,可以选择其他更加稳健的度量,如四分位数极差、绝对平均偏差等。
高质量的数据是进行有效挖掘的前提,高质量的决定必须建立在高质量的数据上。
数据预处理的主要任务:
现实世界中的数据是“脏”的:
- 不完整的:感兴趣的属性可能缺少属性值
- 含噪声的:包含错误的或是“孤立点“
- 不一致的:命名或者编码上存在差异
数据清理就是要解决以上三个问题
数据清理——缺失值
引起缺失值的原因:
- 设备原因
- 与其他已有数据不一样而被删除
- 因为误解而没有被输入的数据
- 在输入数据时,有些数据认为得不到重视而没有被输入
- 对数据的改变没有进行日志记载
缺失值的处理方法:
- 忽略元组(忽略这一个样本)
- 忽略属性列(忽略这一个属性,当这一属性大部分样本都缺失时)
- 人工填写缺失值:费时费力
- 自动填充缺失值:
策略一:使用一个全局常量来填充缺失值(比如该样本均值或众数)
策略二:使用与给定记录属同一类的样本的平均值或众数来填充缺失值
策略三:用可能的值来代替缺失值,可以使用回归或其他基于推理的工具或决策树归纳确定。
数据清理——噪声数据的平滑方法
噪声是测量变量的随机错误或偏差。草绳是测量误差的随机部分,包含错误或孤立点值。
来源:
- 数据收集的设备故障
- 数据录入过程中人的疏忽
- 数据传输过程中的错误
平滑方法:
分箱:通过考察“邻居”来平滑有序数据的值。(平均值平滑、边界平滑)
参考图像处理中的均值去噪、边缘去噪以及高斯去噪
聚类:聚类将类似的值组织成群或“簇”。
回归:让数据适合一个函数来平滑数据。
将两个或多个数据源中的数据,存放在一个一致的数据存储设备中。
数据一致性和冗余是两个重要的问题。
不同表中可能使用不同的名称来指示同一个属性;又比如说,一个数据库中储存了出生年月和年龄两个属性,这两个属性就是冗余的,因为年龄可以由出生年月导出。
平滑、聚集(汇总,数据立方体的构建)、数据概念化、规范化(消除纲量的影响:最小-最大规范化、Z-score规范化、小数定标规范化)、属性构造(通过现有属性构造新的属性)
规范化:
最小-最大规范化(将最小到最大整个空间映射到0-1)
Z-score规范化(将分布规范为正态分布)
小数定标规范化
离散化和概念分层:
通过将属性域化为区间,减少给定连续属性值的个数。区间标号可以代替实际的数据值。比如,18-30岁都可以分为“青年”区间。
离散化也是一个构造新特征的过程。
等宽离散化、基于聚类的离散化、基于熵的离散化
数据挖掘的训练集的获取本身就是一个采样的过程。
选择数据对象子集进行分析的常用方法。
抽样需要具有代表性,即使用样本与使用整个数据集的效果几乎一样。
例如:简单随机抽样(有/无放回)、分层抽样(聚类分成几个簇,每个簇进行简单随机抽样)
搜索
特征子集,进行评估
,如果不满足停止标准
,则重新搜索。属性子集选择
找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。
启发式(探索式)搜索方法:
- 逐步向前选择
- 逐步向后删除
- 向前选择和向后删除相结合
- 判定归纳树(决策树:二叉树)
特征选择的分类:
- 有监督的特征选择
- 无监督的特征选择
- 半监督的特征选择
有监督的特征选择方法
特征评估方法
- 距离向量
类间距离(欧氏距离、马氏距离)
概率距离度量
相关度- 不一致度
一个模式下两个样本除了标签之外其他特征都相同,说明这个模式不一致。因为两个具有完全相同属性的样本却被分到了不同的类中。
简单数据对象之间的相似度和相异度
相似度越高,两对象约相似,相异度则相反。
属性类比 | 相异度 | 相似度 |
---|---|---|
标称的 | d=0 if x == y else d=0 | s=1 if x == y else s=0 |
序数的 | s = 1-d | |
区间的或比率的 | , , , |
连续属性之间的相关度:
线性相关系数:
对于两个连续特征(x,y),其相关度的计算公式:
余弦相似度:
如果(文档)d1和d2是两个(文档)向量,即
余弦相似度等于
离散属性的不确定性
特征X的信息熵计算:
已知变量y后x的条件信息熵计算:
信息增益:
数据对象之间的相异度
距离:
- 欧几里得距离:
其中,n的维度(总特征数),和分别表示X和Y的第k分量。- Minkowski距离:
当p为2的时候是欧几里得距离,当p为1的时候是曼哈顿距离。
距离的性质:
- 非负性
- 对称性 (有的距离不满足)
- 三角不等式(有的距离不满足)
二值属性(如何度量二元数据的相似性?)
符号属性的距离定义:
简单匹配:
其中,M表示属性个数(维数),S表示匹配的属性个数。
如果是混合类型的变量,即向量中的元素混杂有数值属性、顺序属性或符号属性,这个时候(1)可以将变量按类型分组,然后单独进行聚类分析(2)将不同类型的变量组合到一个差异度矩阵中,吧所有变量转换到统一的区间[0,1]中。
对于第二种情况,表示为: