R语言数据分析实战：十大算法之K-均值聚类

发表评论
15,135 阅读

A+

所属分类：R语言

一、准备

K-均值算法是聚类分析算法的一种。通常情况下，我们可能不知道每个数据样本从属的类别，样本没有分类标签，这时我们可以尝试采用K-均值聚类来解决这个问题。

K-means算法是最简单的一种聚类算法。算法的目的是使各个样本与所在类均值的误差平方和达到最小（这也是评价K-means算法最后聚类效果的评价标准）.

K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

K-means聚类算法的一般步骤：

初始化。输入基因表达矩阵作为对象集X，输入指定聚类类数N，并在X中随机选取N个对象作为初始聚类中心。设定迭代中止条件，比如最大循环次数或者聚类中心收敛误差容限。

进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心，从而形成一类。初始化隶属度矩阵。

更新聚类中心。然后以每一类的平均向量作为新的聚类中心，重新分配数据对象。

反复执行第二步和第三步直至满足中止条件。

二、K-均值聚类R语言实现

2.1 加载算法包