机器学习算法-k均值聚类

2020-02-26 10:44 作者:蚁坊软件研究院浏览次数:7469 标签: 深度学习算法

"速读全网"舆情，了解传播路径，把握发展态势——点击试用鹰眼速读网全网舆情监测分析系统

k均值聚类算法，是一种无监督算法，该算法的主要作用是将相似的样本自动归到一个类别中。所谓的无监督算法，就是输入样本没有对应的输出或标签，而聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇。k均值聚类简单易懂而且非常有效，但是确定合理的k值和k个初始类簇中心点对于聚类效果的好坏有很大的影响。

0 k均值聚类算法的主要学习内容

1）基本原理

2）k的选择及初始质心

3）k均值的优缺点

1 k均值聚类的基本原理

1.1 k均值聚类算法描述

k均值聚类算法中的一种，其中k表示类别数，是一种通过均值对数据点进行聚类的算法。适用于大样本，但需要事先指定分为k个类。

原理：从n个数据对象任意选择k个对象作为初始聚类中心，对剩余的其他对象，则根据它们与k个聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；再计算每个所获的新的聚类中心（该聚类中所有对象的均值）；不断重复这一过程，知道标准测度函数开始收敛为止。

k均值聚类的特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

1.2 k均值算法步骤

2 k值和初始质心的选取

2.1 k值的选取

对于一个给定没有分类的数据集，最后具体应该分为多少类，这确实时一个让人头痛的问题。要使k均值最后分类结果最好，也就是要使k均值最小化，是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和，因此，我们可以设计k均值的代价函数为：

而k值在这里取到了重要作用。据统计发现k值的增加，其数据的代价损失是不断变小，如图，我们发现在k=3时，代价函数随着k值变化的幅度显著降低，在k>3之后所带来的作用也没有特别明显，所以我们可以选择k=3作为我们的聚类数目。

但实际应用中，k值的变换规律都不是和上图一样存在突变点，即拐点。那么这时，k值的选择主要还是根据经验以及利用k均值聚类的目的来决定。

2.2聚类中心的初始化

一般，在实际应用中，我们都是采取随机产生k个点作为初始的聚类中心，其原因是，简单快捷。

但k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，因此需要选择合适的k个质心。如果仅仅是完全随机的选择，有可能导致算法收敛很慢。k-means++算法就是对k均值随机初始化质心方法的优化。

k-means++算法对于初始化质心的优化策略也很简单，如下：

k均值聚类算法举例说明：

以下是一组用户的年龄数据

我们将K值定义为2对用户进行聚类，并随机选择16和22作为两个类别的初始质心。

计算距离并划分数据

我们以图的形式展示聚类的过程，在这组年龄数据中，我们选择16和22作为两个类别的初始质心，并通过计算所有用户的年龄值与初始质心的距离对用户进行第一次分类。

通过计算每个用户年龄分别与两个初始质心的距离，这里我们以黑色实心圆点表示两者距离较大，如表2.2.3，第一个数据15，到初始初始质心点16的距离为1，到第二个初始质心22的距离为7，相比之下，15与16的距离更近，近的距离以空心圆点标记。因此15这个年龄被划分到质心点为16的一组中，如果年龄数据点到两个初始质心的距离相等时，可任意划分到这两组中，例如，数据19到16和22的距离都为3，在这里，我们将它划分到了22中。