@HaomingJiang 2016-05-29T12:33:11.000000Z 字数 1075 阅读 3099

Chp2 Data

数据挖掘导论 笔记

Chp2 Data

1 数据类型

属性类型	描述	例子	操作	变换
标称	只能做区分	颜色	众数、熵、列联表、 $\chi^2$ 检验	一一对应
序数	可以做大小比较	rank	中值，百分位，秩相关、游程检验、符号检验	new=f(old),f单调
区间	值可以做差	日历日期	均值，标准差，皮尔逊相关、t和F检验	ax+b
比率	差和比率都有意义	长度，质量	几何平均，调和平均，百分比变差	ax

离散和连续的
非对称的

数据集的特性：维度，稀疏性，分辨率
类型：记录数据，基于图形的，有序数据(自相关性)

2 数据质量

2ways: 检测修复数据，robust的算法
误差和错误：噪声，伪像
精度，偏移，准确率
离群点：异常检测
遗漏值(处理办法)：1.删除数据对象，或属性。2.估计遗漏值。3.忽略
不一致值：检测、纠正
重复数据
时效性
相关性：数据中应该包含相关的关系，(要处理如抽样偏倚一类的问题)

3 数据预处理

1 聚集

将多个对象合并成一个对象，比如交易数据按天重新分。

2 抽样

简单随机抽样，有or无放回
分层抽样
渐进抽样，知道准确率不怎么变了

3 维归约

维数灾难
PCA等技术

4 特征子集选择

另一种降维方法
嵌入(embedded approach)如决策树
filter 独立于数据挖掘算法
包装方法

5 特征创建

特征提取
用傅里叶变换or小波变化之类的变换数据
构造新特征

6 离散化和二元化

二元化：将具有m个不同level的变量变成 $log_2(m)$ 个二元属性
离散化：
unsupervised 等宽、等频率、K-means
supervised 熵方法

7 变量变换

简单函数
标准化

4相似度

简单属性：
标称：0 or 1
序数： $\Delta d / range$
连续性：求差&绝对值
距离：。。。
仅包含二元属性：
Simple Matching Coefficient, $SMC=\frac{f_{11}+f_{00}}{f_{11}+f_{00}+f_{10}+f_{10}}$
Jaccard Coefficient $J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}$
余弦相似度
广义Jaccard系数： $EJ(x,y)=\frac{x'y}{x'x+y'y-x'y}$
相关性
Bregman散度： $\phi$ 为严格凸函数， $D(x,y)=\phi(x)-\phi(y)-<\nabla \phi(y),x-y>$
Mahalanobis距离： $(x-y)'\Sigma^{-1}(x-y)$
在综合所有不同属性时，对非对称数据，都是0，0时忽略这个属性
还可以加权平均