当前位置: 首页 > 科技观察

小白也看得懂的机器学习模型工作原理

时间:2023-03-17 21:19:56 科技观察

小白能看懂的机器学习模型的工作原理请给我解释一下[一种技术]。”向幼儿园儿童解释机器学习可能有点夸张,而实际上问题要求尽可能简单地解释一项技术。这就是作者在这篇文章中试图做的事情。作者将解释什么是机器学习以及机器学习的不同类型,然后介绍常见的模型。本文作者不会介绍任何数学运算,请小白放心食用。数据科学背景很少或没有数据科学背景的成年人应该可以访问它(如果没有,请在评论中告诉我)。机器学习的定义MachineLearningDiagram机器学习是将大量数据加载到计算机程序中,并选择一个模型来“拟合”数据,让计算机做出预测(无需你的帮助)。计算机创建模型的方式是通过算法,算法范围从简单的方程式(如直线方程式)到非常复杂的逻辑/数学系统,使计算机能够做出最佳预测。机器学习的名字很贴切,一旦选择使用和调整模型(即调整以改进模型),机器就会使用该模型来学习数据中的模式。然后,提供新条件(观察)并预测结果!监督式机器学习的定义监督式学习是一种机器学习,其中输入模型的数据被“标记”。简单来说,标记意味着观察结果(即数据行)是已知的。例如,如果您的模型试图预测您的朋友是否会去打高尔夫球,则可能会有温度、星期几等变量。如果您的数据已标记,则您还会有一个值为1的变量你的朋友实际上打高尔夫球,当他们不打高尔夫球时,变量值为0。无监督机器学习的定义无监督学习在数据被标记时与监督学习完全相反。在无监督学习的情况下,你不知道你的朋友是否要去打高尔夫球——这取决于计算机通过模型寻找模式来猜测发生了什么或预测将要发生什么。监督机器学习模型1.Logisticregression遇到分类问题可以使用Logisticregression。这意味着目标变量(即需要预测的变量)由不同的类别组成。这些类别可以是“是/否”或代表客户满意度的1到10之间的数字。逻辑回归模型使用方程创建包含数据的曲线,然后使用该曲线预测新观察结果。在上面的逻辑回归图中,新观察值的预测值为0,因为它位于曲线的左侧。如果看这条曲线上的数据,就可以解释清楚了,因为在图中“预测值为0”的区域,大部分数据点的y值为0。2.线性regression线性回归是最早的机器学习模型之一。这是因为它的算法(即幕后方程式)在仅使用一个x变量时相对容易理解——绘制一条最佳拟合线是小学教过的东西。然后这条最佳拟合线可以预测新的数据点(见下图)。线性回归图线性回归类似于逻辑回归,但是线性回归只能在目标变量是连续的情况下使用,也就是说线性回归可以使用任何值。事实上,任何具有连续目标变量的模型都可以归类为“回归”。连续变量的一个例子是房屋的售价。线性回归也很容易解释。模型方程包含每个变量的系数,这些系数表示目标变量随着自变量(x变量)的每次变化而变化的量。以房价为例,这意味着您可以查看回归方程式,也许会说:“哦,这告诉我,房屋面积(x变量)每增加1平方英尺,销售量就会增加价格(目标变量)增加了25美元。”3.K-NearestNeighbors(KNN)这个模型可以用来做分类或者回归!“K-最近邻”这个名字并不容易混淆。该模型首先绘制所有数据。其中,“K”部分是指模型为了确定预测值应该使用的最近邻数据点的数量(如下图所示)。您可以选择K,然后您可以使用这些值来查看哪个给出了最佳预测。K-NearestNeighborsgraphK=__circle中的所有数据点都可以为这个新数据点“投票”目标变量的值。得票最多的值是KNN为新数据点预测的值。在上图中,最近的2个点是1类,1个是2类。因此,模型将预测该数据点的1类。如果模型试图预测值而不是类别,则所有“投票”都是取平均值以获得预测值的值。4.支持向量机支持向量机通过在数据点之间建立边界来运行,其中一个类的大部分落在边界的一侧(在2D情况下也称为线),而另一个类的大部分落在另一侧.SVM图的工作原理是机器试图找到具有最大边距的边界。边距是指每个类的最近点与边界之间的距离。然后根据新数据点落在边界的哪一侧绘制和分类新数据点。作者对这个模型的解释是基于分类的情况,但是你也可以用SVM做回归。5.决策树和随机森林图源:unsplash无监督机器学习模型接下来我们进入“深水区”,来看看无监督学习。提醒一下,这意味着数据集未标记,因此观察结果未知。1、k-means聚类在用K表示簇时,首先要假设数据集中有K个簇。由于您不知道数据中实际有多少组,因此您必须尝试不同的K值并使用可视化和指标来查看哪些有效。K表示最适合圆形和类似大小的簇。k-means聚类算法首先选择最好的K个数据点来形成每个K簇的中心。然后对每个点重复以下两个步骤:将数据点分配到最近的聚类中心通过取该聚类中所有数据点的平均值创建一个新中心K-均值聚类图2.DBSCAN聚类DBSCAN聚类模型不同于K-means聚类是因为它不需要输入K的值,它也可以找到任何形状的聚类。您无需指定聚类数,而是输入聚类中所需的最少数据点数,然后在数据点周围的半径范围内搜索聚类。DBSCAN将为您找到聚类,然后您可以更改用于创建模型的值,直到获得对您的数据集有意义的聚类。此外,DBSCAN模型对“嘈杂”点(即远离所有其他观察点的点)进行分类。当数据点非常靠近时,此模型比K-means效果更好。3.神经网络在我看来,神经网络是最酷最神秘的模型。它们被称为“神经网络”,因为它们是根据我们大脑中神经元的工作方式建模的。这些模型在数据集中寻找模式;有时他们会发现人类可能永远无法识别的模式。神经网络可以很好地处理图像和音频等复杂数据。从面部识别到文本分类,这些都是我们现在经常看到的软件背后的逻辑。来源:unsplash有时你可能会感到困惑,即使是专家也无法完全理解计算机为什么会得出这个结论。在某些情况下,我们只关心它擅长预测!但有时我们关心计算机如何做出预测,例如它是否使用模型来确定哪些候选人获得第一轮面试。希望这篇文章能让您更好地了解这些模型,让您意识到它们有多酷!