@Billy-The-Crescent 2019-04-30T06:21:26.000000Z 字数 1782 阅读 491

数据挖掘第一章

数据挖掘 概念

第一章目录：

数据挖掘第一章
- 1 绪论

1 绪论

1.1 数据挖掘介绍

应用范围：没有明确的算法步骤可以得出精确的结果

应用：
网上购物——“定向营销”（广告投放）
民意调查（poll）
客户流失分析
入侵检测（离群点检测等）

数据挖掘定义：
从大规模数据中自动发现数据背后隐藏的非频繁的知识、规律或模式。

演绎推理：由一般到特殊的推理。
归纳推理：由特殊到一般的推理。

数据挖掘、机器学习完成的就是归纳推理的过程。

机器学习和数据挖掘的区别？

机器学习是关心训练集小的时候如何得到一个可行的模式，而不关心数据集大了以后如何提高I/O带来的性能问题；而数据挖掘是从数据库入手，从一开始就考虑了在数据集及其庞大的情况下得到模式。
但是发展到现在，机器学习和数据挖掘有很大一部分是重叠的

1.2 数据挖掘的背景

四种主要技术激发了人们对数据挖掘研究的兴趣：

超大规模数据库的出现（需求）
先进的计算机技术（计算机资源）
对海量数据的快速访问
统计方法的不断深入

信息的快速增长带来的问题：
1. 信息过量，难以消化
2. 信息真假难以辨识
3. 信息安全难以保证
4. 信息形式不一致，难以统一处理

1.3 数据挖掘的任务及过程

数据挖掘与传统数据分析方法的区别：
数据挖掘在没有明确假设的前提下去挖掘信息、发现知识。
数据挖掘所得到的的信息应具有先前未知、有效和应用三个特征。其主要目标就是提高决策能力，能在过去的经验基础上预言未来趋势等。

数据挖掘的对象：
1. 关系数据库
2. 数据仓库
一个从多个数据源搜集的信息储存库，存放在一个一致的模式下。数据仓库是一个面向主题的、集成的、相对稳定的（只读的）、反映历史变化的数据集合，用于支持管理决策；数据仓库适合于联机分析处理OLAP（On-Line Analysis Processing）。在银行、电信等行业中数据集中后通常需要保存在数据仓库中。
3. 事务数据库
4. 空间数据库
关系型数据库内部对地理信息进行屋里储存。
5. 流数据
流数据是连续的、有序的、变化的、快速的、大量的输入数据。
主要的应用场合包括：网络监控、网页点击流等。
特点：数据实时到达；数据到达次序独立；不受应用系统控制
6. 多媒体数据库
7. 文本数据库
无结构数据：大部分的文本资料和网页
半结构数据：XML数据
结构类型：图书馆数据
8. 万维网数据（World Wide Web Data）
可以被看做最大的文本数据库

数据挖掘的任务：
预测任务：根据其他属性的值预测特定属性的值，如分类、回归、离群点检测。
描述任务：寻找概括数据中潜在联系的模式，如聚类分析、 关联分析、 演化分析、 序列模式挖掘。

聚类和分类的区别：

聚类是一种无指导的观察式学习，没有预先定义的类，如将邮件进行聚类可以聚为多个各自相似的类。而分类问题是有指导的示例式学习，预先定义有类，如垃圾邮件分类。

（1）分类（classification）分析
通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则。
（2）聚类（clustering）分析
试图找出数据集中的共性和差异，并将具有共性的对象聚合在相应的类。
（3）回归（Regression）分析
确定两种或两种以上变数间相互依赖的定量关系。
（4）关联（Association）分析
发现特征之间的相互依赖关系，通常是从给定的数据集中发现频繁出现的模式知识（关联规则）。
（5）离群点（Outlier）检测
发现与众不同的数据。
（6）演化（Evolving）分析
对随时间变化的数据对象的变化规律和趋势进行建模描述。
（7）序列模式（Sequential Pattern）挖掘
分析数据间的前后序列关系，包括相似模式发现、周期模式发现。比如客户的购买行为模式、Web访问模式

数据挖掘过程：
知识发现（Knowledge Discovery in Database，KDD）是从数据中发现有用知识的整个过程，整个过程定义为：从数据中鉴别出有效模式的非平凡过程。

数据库--清洗与集成--数据仓库--数据转换--特定数据集--数据挖掘 --模式--评估--知识

数据挖掘软件：: Weka，tesorflow

1.4 数据挖掘的应用

金融保险业
电信
市场营销分析
医学
体育
生物信息学

数据挖掘得到的语言模型可以告诉你会如何，但是不能说明为什么会这样