@HaomingJiang
2016-05-29T20:33:11.000000Z
字数 1075
阅读 2100
数据挖掘导论
笔记
属性类型 | 描述 | 例子 | 操作 | 变换 |
---|---|---|---|---|
标称 | 只能做区分 | 颜色 | 众数、熵、列联表、检验 | 一一对应 |
序数 | 可以做大小比较 | rank | 中值,百分位,秩相关、游程检验、符号检验 | new=f(old),f单调 |
区间 | 值可以做差 | 日历日期 | 均值,标准差,皮尔逊相关、t和F检验 | ax+b |
比率 | 差和比率都有意义 | 长度,质量 | 几何平均,调和平均,百分比变差 | ax |
离散和连续的
非对称的
数据集的特性:维度,稀疏性,分辨率
类型:记录数据,基于图形的,有序数据(自相关性)
2ways: 检测修复数据,robust的算法
误差和错误:噪声,伪像
精度,偏移,准确率
离群点:异常检测
遗漏值(处理办法):1.删除数据对象,或属性。2.估计遗漏值。3.忽略
不一致值:检测、纠正
重复数据
时效性
相关性:数据中应该包含相关的关系,(要处理如抽样偏倚一类的问题)
将多个对象合并成一个对象,比如交易数据按天重新分。
简单随机抽样,有or无放回
分层抽样
渐进抽样,知道准确率不怎么变了
维数灾难
PCA等技术
另一种降维方法
嵌入(embedded approach)如决策树
filter 独立于数据挖掘算法
包装方法
特征提取
用傅里叶变换or小波变化之类的变换数据
构造新特征
二元化:将具有m个不同level的变量变成个二元属性
离散化:
unsupervised 等宽、等频率、K-means
supervised 熵方法
简单函数
标准化
简单属性:
标称:0 or 1
序数:
连续性:求差&绝对值
距离:。。。
仅包含二元属性:
Simple Matching Coefficient,
Jaccard Coefficient
余弦相似度
广义Jaccard系数:
相关性
Bregman散度:为严格凸函数,
Mahalanobis距离:
在综合所有不同属性时,对非对称数据,都是0,0时忽略这个属性
还可以加权平均