当前位置: 首页 > 后端技术 > Python

100天搞定机器学习-day43几张GIF看懂K-means聚类原理

时间:2023-03-26 19:20:22 Python

上篇文章推荐的如何正确使用“K-means聚类”?KMeans算法是典型的基于距离的聚类算法,它以距离作为相似度的评价指标,即两个对象之间的距离越近,相似度越大。该算法认为簇是由相互靠近的对象组成的,因此最终目标是获得紧凑且独立的簇。K个初始聚类中心的选择对聚类结果有很大的影响,因为在算法的第一步中,随机选择任意k个对象作为初始聚类中心,最初代表一个聚类。在每次迭代中,算法根据其与每个簇中心的距离将数据集中每个剩余的对象分配到最近的簇。当检查完所有数据对象后,完成一次迭代操作,并计算出一个新的聚类中心。算法过程如下:(1)从N个数据文档(样本)中随机选取K个数据文档作为质心(聚类中心)。本文在聚类中心初始化过程中,在样本空间范围内随机生成K个聚类中心。(2)对于每个数据文档,测量它到每个质心的距离并将其分类到最近的质心类中。(3)重新计算已经得到的每个类的质心。(4)迭代(2)~(3步,直到新的质心等于原质心或小于指定的阈值,算法结束。数据点从最左边的4个点开始,从最右边的4个点开始with4toppointsStartwith4bottompointsStartingwith4randompointsinonecluster参考:https://github.com/MLEveryday...https://www.cnblogs.com/eczho...http://www.avikjain。我