您当前的位置：首页 > 计算机 > 编程开发 > 人工智能

K-means聚类算法原理解析

时间：10-06来源：作者：点击数：

通过《什么是Kmeans聚类算法》一节的学习，我们了解了 K-means 聚类算法的聚类过程，其实就是不断寻找簇的质心的过程，该过程从随机设定 K 个质心开始，直到找到 K 个最合适的质心为止。本节我们透过算法流程直击算法的本质，帮助您彻底理解 K-means 算法。

度量最小距离

对于 K-means 聚类算法而言，找到质心是一项既核心又重要的任务，找到质心才可以划分出距离质心最近样本点。从数学角度来讲就是让簇内样本点到达各自质心的距离总和最小。

通过数学定义，我们将“质心”具象化，既然要使“距离的总和最小”，那么第一步就是确定如何度量距离，K-means 算法通过『欧几里得距离』来衡量质心与样本点之间的距离。前面在学习 KNN 算法时，我们介绍了『闵可夫斯基距离』，其公式如下：

k-means算法

上述式子中 "∑" 符号称为求和符号，与 sum 函数功能一致，闵氏距离是一组代数形式的公式，通过给 P 设定不同的值，就能用闵氏距离得到不同的距离表达式。当 P =1 时，可以得到曼哈顿街区距离（简称“曼哈顿距离”）；P = 2 时即可得到欧几里得距离，该公式常用于度量两点之间的直线距离，表达式和 L2 范式相同，如下所示：

欧几里得距离

举个简单的例子：如果第 j 个簇内有若干个数据点（比如 m 个），根据上述欧几里得距离公式就可以计算出簇中各个点到质心z的距离总和，如下所示：

质心距离总和计算

注意，上述公式中的 zj 是簇内所有样本点求均值的结果。

我们知道 K-measn 算法中会有 K 个簇，因此就要使每个簇内的数据点到质心的距离都可以达到最小，最终使得距离的总和最小。您可以这样理解，K 个簇共同组成了一个集合（这里定义为 A 集合），在 A 集合中每个簇的样本点到各自质心的距离都是最小的，因此可得如下表达式：

k-means

总结

上述内容，从数学的角度对 K-means 算法的原理进行了深入剖析，下面我们对 K-means 算法的流程进行回顾，可分以下四步：

随机选取 K 个对象，并以它们为质心；
计算数据集样本点到质心的距离；
根据样本点距离质心的距离将其分簇（类），距离哪个近，划分到哪个簇（类）；
以簇内所有样本点的均值重新计算质心，，然后重复第二步，直到划分的簇（类）不在变化后停止。

K-means 算法是属于无监督学习算法，常用于解决聚类问题，通过给算法模型输入一个包含多种特征信息的样本点，会返回一个相应的类别编号（或称簇别），从而完成样本数据点的类别划分。

注意，判定聚类任务完成的终止条件并不是唯一的，常用方法有三个：

簇内数据点向质心靠拢、收敛，使得质心点不再发生明显的变化；
使用误差平方和（即 SSE）来衡量，当误差平和的值越小时，表示数据点越接近于他们的质心，聚类效果越好；
设定指定的定迭代次数，即最多选取几次质心点，不过这种方法，未必能达到最好的分类效果。

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

城东书院微信服务号

城东书院微信订阅号

上一篇:什么是K-means聚类算法下一篇:K-means聚类算法的应用以及实现

推荐内容

Calibre – 一站式电	新手火腿必看！超详细的
图解 \| 原来这就是TCP	图解 \| 原来这就是网

相关内容

栏目更新

栏目热门

关于我们 | 联系我们 | 用户协议 | 广告服务 | 申请链接 | 网站地图 | 版权声明 | 用户留言 | 招聘信息 | 帮助中心 | 社区讨论 | 下载服务

中国文明网传播文明

Copyright ©2019-2022 CDSY Corporation, All Rights Reserved

城东书院^® CDSY.XYZ 版权所有湘ICP备19021508号-1 公安网备案

公安网备案

湘公网安备 43102202000103号

※学习、工作、生活信息平台※

我们一直在努力！

本网大部分资源来源于会员上传，除本网组织的资源外，版权归原作者所有，如有侵犯版权，请立刻和本网联系并提供证据，本网将在三个工作日内改正。