[关闭]
@strivexj 2019-05-18T10:09:39.000000Z 字数 1386 阅读 1110

Clustering

ML


聚类

无监督学习(unsupervised learning)中,训练样本的标记信息是未知的,学习的目的是揭示数据的内在性质及规律,为进一步的数据分析提供基础。这类学习任务中研究最多,应用最广的是聚类(clustering)

这一章的内容大致如下:

聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster)。通常来说每个簇可能对应一些特征,比方说音乐可以聚类成古典音乐、摇滚乐、流行乐等等。但聚类过程仅产生簇结构,簇对应的概念语义需要使用者来把握和定名

简单来说,聚类可以分为两种用途:

聚类算法的两大基本问题是性能度量距离计算

习题

9.1

问:试证明: 时,闵可夫斯基距离满足距离度量的四条基本性质; 时,闵可夫斯基距离不满足直递性,但满足非负性、同一性、对称性; 趋向无穷大时,闵可夫斯基距离等于对应分量的最大绝对距离,即

9.2

问:同一样本空间中的集合 X 与 Z 之间的距离可通过 “豪斯多夫距离”(Hausdorff distance) 计算:

其中

试证明:豪斯多夫距离满足距离度量的四条基本性质。

9.3

问:试析 均值算法能否找到最小化式(9.24)的最优解。

9.4

问:试编程实现 均值算法,设置三组不同的 值、三组不同初始中心点,在西瓜数据集4.0上进行实验比较,并讨论怎样的初始中心有利于取得好结果。

9.5

问:基于 DBSCAN 的概念定义,若 为核心对象,由 密度可达的所有样本构成的集合为 X,试证明:X满足连接性(9.39)与最大性(9.40)。

9.6

问:试析 AGNES 算法使用最小距离和最大距离的区别。

9.7

问:聚类结果中若每个簇都有一个凸包(包含蔟样本的凸多面体),且这些凸包不相交,则称为凸聚类。试析本章介绍的哪些聚类算法只能产生凸聚类,哪些能产生非凸聚类。

9.8

问:试设计一个聚类性能度量指标,并与9.2节中的指标比较。

9.9*

问:试设计一个能用于混合属性的非度量距离。

9.10*

问:试设计一个能自动确定聚类数的改进 均值算法,编程实现并在西瓜数据集4,0上运行。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注