案例（lnstacart市场篮分析）

时间：2023-03-08 23:50:16 网络应用技术

　　共同养成写作习惯！这是我参加“掘金每日计划·四月挑战”的第30天。单击以查看事件的详细信息。

　　首先，这种类型的算法是一种典型的无监督学习算法，例如PCA将是WEI等等。这种类型的算法在上一个机器学习文章中提到的算法，但我没有详细分析其实现，但只是简单地使用了其实现，但是Sklearn以进行一些应用程序。然后，您必须首先解释K均必须首先找出无监督的含义。我将在这里使用最简单的语言来描述复杂的算法（尽管这种K均值并不复杂，但这很难，但实际上很困难。我认为现实生活中各种参数的定量和建模，是，如何获得合理和高效的数据集。例如，如何通过KNN算法找到数据集来分析女孩的偏好，像男孩一样的女孩特征，以改善男性魅力并实现科学秩序当然，这可能与工程伦理不符，与此同时，创建这样的数据集有许多困难）。

　　非监管学习是一种机器学习的方式，不需要人力进入标签。它是一种选择，除了诸如监督学习和加强学习之类的策略外。在监视学习中，典型的任务是分类和回归分析，需要使用人工准备的例子（基础）。...无监督的学习主要用于（在）监督和学习和增强学习中。可以通过加强学习，监督和学习以及通过解释意见来区分。

　　这是百科全书的定义，因此就是这种情况。现在有很多要点，现在我命令您对其进行分类，如何进行分割。我现在要求三个类别，三类。现在，这是飞机上的一个点，只有两个维度，即x y。这是最简单的例子，并且有一个复杂的LNSTACART市场篮分析。这是一个机器学习的主题，可让您对用户行为进行分类并筛选用户喜欢收集的位置。这实际上是一个分类问题。该区域的分类只能是处理区域的平面。当然，特定的操作应该更加复杂。稍后，我们将使用它来举一个例子。

　　然后，我们可以在特定算法过程中想象。

　　在这张照片中，我们假设我们要分为三个类。我们应该做什么。

　　首先，我们必须选择三个中心。由于我们没有监督，因此我们不知道分类的结果。自然，我们不知道一开始的中心点是什么，因此最简单，最合理的方法是随机选择三个点作为我们的中心点。

　　接下来，我们有中心点，所以下一步该怎么做。毫无疑问，它是根据距离自然判断的。请参阅哪个中心点最接近哪个中心点，距离越接近距离，那么此点是一个类别在该中心点。然后距离之间的距离涉及几种方法，一种是最典型的OU距离，这是点距离。另一个是曼哈顿的距离

　　以下图片可以非常生动地展示

　　这是我最麻烦的时刻，我们标准化了之前说的数学。

　　1）对于K-均值算法，首先要注意的是K值的选择。一般而言，我们将根据数据的先前经验选择合适的K值。选择合适的K值。

　　2）确定K的数量后，我们需要选择K的Kitic心脏，就像上面图B中的随机质量心脏一样。Sincei？>它们是灵感方法，并且选择K的初始化质量位置具有对最终群集结果和运行时间的巨大影响。

　　好吧，现在我们将总结传统的K-均值算法流程。

　　输入是示例集d = {x1，x2，... xm}，聚类树K，最大迭代号n

　　输出群集C = {C1，C2，... CK}

　　1）从数据集D中随机选择k样品作为初始k个单个向量：{μ1，μ2，...，...，μk} 2）n = 1,2，...，n

　　a）将簇C最初划分为ct =?T= 1,2 ... k b）对于i = 1,2 ... m，计算样品xi和各种质量向量μj（j = 1,2，..距离.k）：dij = ||xi -μj||22，最小的标签是对应于dij的类别。这次，更新cλi= cc新i∪{xi} c），用于j = 1,2，...，k，k，re re calcatuse new质量μj= 1 |CJ |∑x∈CJX e）对于CJ中的所有样品点。所有k固体心脏矢量尚未更改，然后转到步骤3）

　　3）输出群集划分C = {C1，C2，... CK}

　　K均值的主要优点是：

　　1）原理相对简单，易于实现，并且收敛速度很快。

　　2）聚类的效果更好。

　　3）算法的解释相对较强。

　　4）需要调整的主要参数仅是群集K。

　　K均值的主要缺点是：

　　1）K值的选择不容易掌握

　　2）对于不是凸的数据集很难收敛

　　3）如果每个隐藏类的数据不平衡，例如，每个隐藏类的数据量严重不平衡，或者各种隐藏类别之间的差异是不同的。

　　4）使用迭代方法，获得的结果仅是最好的部分。

　　5）对噪声和异常点敏感。

　　在这一部分中，我直接与Sklearn一起做。该算法的原理非常简单，基本上并不难执行。

　　来自Sklearn.Cluster Import Kmeans

　　评价：

　　从sklearn.metrics导入silhouette_score_score

　　探索用户对项目的偏好被细分，这是用户喜欢通过群集分析的项目的分类。

　　有人已经做到了

　　数据集：

　　链接：https：//pan.baidu.com/s/1p9xwvyyay16rckskxyzeka提取代码：6666

上一篇：快速入门WebRTC：录制，播放，屏幕和相机下载

下一篇：这是大数据和PHP的好工作（2023年的最新饰面）

案例（lnstacart市场篮分析）相关文章