[关闭]
@HaomingJiang 2016-05-29T20:33:11.000000Z 字数 1075 阅读 2115

Chp2 Data

数据挖掘导论 笔记



1 数据类型

属性类型 描述 例子 操作 变换
标称 只能做区分 颜色 众数、熵、列联表、检验 一一对应
序数 可以做大小比较 rank 中值,百分位,秩相关、游程检验、符号检验 new=f(old),f单调
区间 值可以做差 日历日期 均值,标准差,皮尔逊相关、t和F检验 ax+b
比率 差和比率都有意义 长度,质量 几何平均,调和平均,百分比变差 ax

离散连续
非对称

数据集的特性:维度,稀疏性,分辨率
类型:记录数据,基于图形的,有序数据(自相关性)

2 数据质量

2ways: 检测修复数据robust的算法
误差和错误:噪声,伪像
精度,偏移,准确率
离群点:异常检测
遗漏值(处理办法):1.删除数据对象,或属性。2.估计遗漏值。3.忽略
不一致值:检测、纠正
重复数据
时效性
相关性:数据中应该包含相关的关系,(要处理如抽样偏倚一类的问题)

3 数据预处理

1 聚集

将多个对象合并成一个对象,比如交易数据按天重新分。

2 抽样

简单随机抽样,有or无放回
分层抽样
渐进抽样,知道准确率不怎么变了

3 维归约

维数灾难
PCA等技术

4 特征子集选择

另一种降维方法
嵌入(embedded approach)如决策树
filter 独立于数据挖掘算法
包装方法

5 特征创建

特征提取
用傅里叶变换or小波变化之类的变换数据
构造新特征

6 离散化和二元化

二元化:将具有m个不同level的变量变成个二元属性
离散化:
unsupervised 等宽、等频率、K-means
supervised 熵方法

7 变量变换

简单函数
标准化

4相似度

简单属性:
标称:0 or 1
序数:
连续性:求差&绝对值
距离:。。。
仅包含二元属性:
Simple Matching Coefficient,
Jaccard Coefficient
余弦相似度
广义Jaccard系数:
相关性
Bregman散度:为严格凸函数,
Mahalanobis距离:
在综合所有不同属性时,对非对称数据,都是0,0时忽略这个属性
还可以加权平均

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注