@lzb1096101803 2016-06-16T09:35:10.000000Z 字数 2352 阅读 860

数据挖掘

未分类

举例

关联是指发现样本间或样本不同属性间的关联。例如，一个数据挖掘系统可能发现的关联规则为： major(X, “ computing science” ) owns(X, “ personal computer” )[support=12%, confidence=98%] 其中， X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为 12%，同时，主修计算机专业的学生有 98%拥有个人计算机。
分类是构造一系列能描述和区分数据类型或概念的模型(或功能)，分类被用作预测目标数据的类的标签。例如，通过对过去银行客户流失与未流失客户数据的分析，得到一个预测模型，预测新客户是否可能会流失。
聚类是将数据划分为相似对象组的过程，使得同一组中对象相似度最大而不同组中对象相似度最小。例如，通过对某大型超市客户购物数据进行聚类，将客户聚类细分为低值客户、高值客户以及普通客户等

一趟聚类更高效

只需要扫描一次数据集就可以得到聚类结果，其时间复杂度与数据集大小呈线性关系，使算法具有很好的扩展性

离群点和噪声

噪声：被测量的变量的随机误差或方差；
离群点：数据集中包含一些数据对象，它们与数据的一般行为或模型不一致；

不能说噪声点包含离群点，虽然大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而，在一些应用（例如：欺诈检测），会针对离群点做离群点分析或异常挖掘。

离群点(Outlier)属于观测量，既有可能是真实数据产生的，也有可能是噪声带来的，但是总的来说是和大部分观测量之间有明显不同的观测值。

二

1.数据挖掘里面噪声的定义，举个例子说明噪声手抖录错成绩

噪声是测量变量的随机错误或偏差。噪声是测量误差的随机部分，包含错误或孤立点值。可能是数据收集的设备故障，数据录入错误或数据传输错误等导致

数据收集，利用数据挖掘相关方法提取出有用的知识，最后用提出处理的知识辅助相应决策者进行决策

2.噪声对数据挖掘的影响

导致有缺失值，产生离群点，出现不一致值

3.如何避免噪声，对噪声的处理

忽略元组，忽略属性列，人工填写缺失值，自动填充缺失值(同一常量替换，均值或众数填充，用决策树等形势预测可能值替代缺失值)

4.去除噪声的方法
在数据预处理的时候可以发现并清除噪音数据吗？噪音数据一般有哪些处理方法
（1）可以。数据清理的目的就是试图填充缺失值、去除噪声并识别离群点、纠正数据中的不一致值。

平滑方法：

1、分箱：通过考察周围的值来平滑有序数据的值
2、聚类：聚类将类似的值组织成群或簇。落在簇集合之外的值被视为异常值
3、回归：通过回归（线性回归、非线性回归）让数据适合一个函数来平滑数据

5.中位数
（1）均值：
（2）中位数：对于倾斜的（非对称的）数据，中位数是数据中心的一个较好度量
（3）截断均值：均值对极端值很敏感，截断均值可以避免少量极端值影响均值

6.余弦相似度 p42 P47
曼哈顿距离p47
欧几里得距离P47
切比雪夫距离
明科夫斯基距离

三分类挖掘

1，举例说明什么是分类挖掘，说明过程
分类挖掘的任务是对数据集进行学习并构造一个拥有预测功能的分类模型，用于预测未知样本的类标号，把未知类标号的样本映射到某个预定给定的类标号中

分类前先将数据集划分为训练集和测试集，通过分析训练集的特点构建分类模型，模型可以是决策树或者分类规则等形式。第二步是udi测试卷用建立好的分类模型进行分类，评估该分类模型的分类准确度等指标。通常采用准确度大的分类模型

如预测是否有艾滋病，有艾滋病和没有艾滋病就是预先给定的标号，根据身体特征
是否有刷信誉的问题

2，贪婪算法，id3算法，课本中的例题一定要看

贪婪？？？
ID3 p52 P105

3，贝叶斯算法，knn算法，决策树

贝叶斯： P73 p105
KNN p80

画决策树

4，摘要信息的计算，对象与集合之间的距离
p117 P139

四，聚类分析

1，聚类挖掘的定义，说明挖掘的过程。建议通过举例的方式说明

聚类挖掘：将数据集划分为若干相似对象组成的多个组或簇的过程，使得同一组中对象间的相似度最大化，不同组中对象间的相似度最小化

5步：模式表示（特征提取和选择），适合于数据领域的模式相似性定义，聚类或划分算法，数据摘要，输出结果的评估

猫，狗，鸵鸟，鸡，鸭，
会游泳，哺乳动物

电子商务网站中客户群划分，根据客户个人信息，消费习惯，浏览行为等信息，计算客户之间相似度，然后采用合适的聚类算法对所有客户进行类划分，基于得到的客户群消息，相关店主可以指定相应的营销策略，推荐商品

2，kmeans算法，优缺点，能做题
P112
选中心，求距离，分类，更新中心

优点：P114
描述容易，实现简单，快速

簇个数k需要预先指定
算法对初始值的选取依赖性极大，常陷入局部最优解
对噪声点和离群点很敏感
不能用于发现非凸形状的簇
只能处理数值属性的数据集，不能处理包含分类属性的数据集

3，一趟聚类算法
一趟聚类算法是如何在时效性和处理混合型数据方面得到提高的？它的缺点是什么？
1、对于大规模数据集，聚类时效性和准确性难以满足要求
2、难以直接处理混合属性的数据
3、聚类结果依赖于参数，而参数的选择主要靠经验或试探，没有简单、通用的方法。

五，关联分析
1，举例说明什么是关键分析

挖掘出隐藏在大型数据集中令人感兴趣的联系。

如挖掘商场销售数据，发现商品减的关系，为商场进行商品促销和摆放货架提供辅助决策信息

通过对数据集进行关联分析，发现关联规则A→B，表示购买产品A的顾客通常都会购买产品B。关联规则中的前件和后件不存在必然的因果关系，只是表示如果前件出现了，后件也很有可能出现。

啤酒和尿布

2，Apriori算法，Fpgrowth算法
P156 P171

P157

3，噪声的处理
4，对关联挖掘，分类挖掘，聚类挖掘进行举例比较，说出一些相同点，不同点。

加一个，数据挖掘和统计分析的区别

数据挖掘

一趟聚类更高效

离群点和噪声

二

三 分类挖掘

四，聚类分析

内容目录

选择主题

三分类挖掘