共同养成写作习惯!这是我参加“掘金每日计划·四月挑战”的第30天。单击以查看事件的详细信息。
首先,这种类型的算法是一种典型的无监督学习算法,例如PCA将是WEI等等。这种类型的算法在上一个机器学习文章中提到的算法,但我没有详细分析其实现,但只是简单地使用了其实现,但是Sklearn以进行一些应用程序。然后,您必须首先解释K均必须首先找出无监督的含义。我将在这里使用最简单的语言来描述复杂的算法(尽管这种K均值并不复杂,但这很难,但实际上很困难。我认为现实生活中各种参数的定量和建模,是,如何获得合理和高效的数据集。例如,如何通过KNN算法找到数据集来分析女孩的偏好,像男孩一样的女孩特征,以改善男性魅力并实现科学秩序当然,这可能与工程伦理不符,与此同时,创建这样的数据集有许多困难)。
非监管学习是一种机器学习的方式,不需要人力进入标签。它是一种选择,除了诸如监督学习和加强学习之类的策略外。在监视学习中,典型的任务是分类和回归分析,需要使用人工准备的例子(基础)。...无监督的学习主要用于(在)监督和学习和增强学习中。可以通过加强学习,监督和学习以及通过解释意见来区分。
这是百科全书的定义,因此就是这种情况。现在有很多要点,现在我命令您对其进行分类,如何进行分割。我现在要求三个类别,三类。现在,这是飞机上的一个点,只有两个维度,即x y。这是最简单的例子,并且有一个复杂的LNSTACART市场篮分析。这是一个机器学习的主题,可让您对用户行为进行分类并筛选用户喜欢收集的位置。这实际上是一个分类问题。该区域的分类只能是处理区域的平面。当然,特定的操作应该更加复杂。稍后,我们将使用它来举一个例子。
然后,我们可以在特定算法过程中想象。
在这张照片中,我们假设我们要分为三个类。我们应该做什么。
首先,我们必须选择三个中心。由于我们没有监督,因此我们不知道分类的结果。自然,我们不知道一开始的中心点是什么,因此最简单,最合理的方法是随机选择三个点作为我们的中心点。
接下来,我们有中心点,所以下一步该怎么做。毫无疑问,它是根据距离自然判断的。请参阅哪个中心点最接近哪个中心点,距离越接近距离,那么此点是一个类别在该中心点。然后距离之间的距离涉及几种方法,一种是最典型的OU距离,这是点距离。另一个是曼哈顿的距离
以下图片可以非常生动地展示
这是我最麻烦的时刻,我们标准化了之前说的数学。
1)对于K-均值算法,首先要注意的是K值的选择。一般而言,我们将根据数据的先前经验选择合适的K值。选择合适的K值。
2)确定K的数量后,我们需要选择K的Kitic心脏,就像上面图B中的随机质量心脏一样。Sincei?>它们是灵感方法,并且选择K的初始化质量位置具有对最终群集结果和运行时间的巨大影响。
好吧,现在我们将总结传统的K-均值算法流程。
输入是示例集d = {x1,x2,... xm},聚类树K,最大迭代号n
输出群集C = {C1,C2,... CK}
1)从数据集D中随机选择k样品作为初始k个单个向量:{μ1,μ2,...,...,μk} 2)n = 1,2,...,n
a)将簇C最初划分为ct =?T= 1,2 ... k b)对于i = 1,2 ... m,计算样品xi和各种质量向量μj(j = 1,2,..距离.k):dij = ||xi -μj||22,最小的标签是对应于dij的类别。这次,更新cλi= cc新i∪{xi} c),用于j = 1,2,...,k,k,re re calcatuse new质量μj= 1 |CJ |∑x∈CJX e)对于CJ中的所有样品点。所有k固体心脏矢量尚未更改,然后转到步骤3)
3)输出群集划分C = {C1,C2,... CK}
K均值的主要优点是:
1)原理相对简单,易于实现,并且收敛速度很快。
2)聚类的效果更好。
3)算法的解释相对较强。
4)需要调整的主要参数仅是群集K。
K均值的主要缺点是:
1)K值的选择不容易掌握
2)对于不是凸的数据集很难收敛
3)如果每个隐藏类的数据不平衡,例如,每个隐藏类的数据量严重不平衡,或者各种隐藏类别之间的差异是不同的。
4)使用迭代方法,获得的结果仅是最好的部分。
5)对噪声和异常点敏感。
在这一部分中,我直接与Sklearn一起做。该算法的原理非常简单,基本上并不难执行。
来自Sklearn.Cluster Import Kmeans
评价:
从sklearn.metrics导入silhouette_score_score
探索用户对项目的偏好被细分,这是用户喜欢通过群集分析的项目的分类。
有人已经做到了
数据集:
链接:https://pan.baidu.com/s/1p9xwvyyay16rckskxyzeka提取代码:6666