当前位置: 首页 > 科技观察

人工智能十大热门算法,通俗易懂

时间:2023-03-13 01:17:55 科技观察

机器学习是业界创新的重要领域。我们为机器学习程序选择的算法类型取决于我们想要实现的目标。现在,机器学习有很多算法。因此,这么多的算法,对于初学者来说可能相当吃力。今天,我们将简要介绍10种最流行的机器学习算法,让你适应这个令人兴奋的机器学习世界!我们开始谈正事吧!1.线性回归线性回归(LinearRegression)可能是最流行的机器学习算法。线性回归就是找到一条直线,让它尽可能地贴合散点图中的数据点。它试图通过将直线方程拟合到数据来表示自变量(x值)和数值结果(y值)。这条线可以用来预测未来的价值!该算法最常用的技术是最小二乘法。此方法计算最佳拟合线,使到线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。这个想法是通过最小化这个平方误差或距离来拟合模型。例如,简单的线性回归,它有一个自变量(x轴)和一个因变量(y轴)2.Logistic回归Logistic回归类似于线性回归,但它用于输出为二进制(即,当结果只能有两个可能的值时)。最终输出的预测是一个称为逻辑函数g()的非线性S形函数。这个逻辑函数将中间结果值映射到结果变量Y,其值范围从0到1。这些值然后可以解释为Y发生的概率。sigmoid逻辑函数的特性使得逻辑回归更适用于分类任务。显示通过考试的概率与学习时间的逻辑回归图。3.决策树决策树可用于回归和分类任务。在该算法中,训练模型通过学习树表示的决策规则来学习预测目标变量的值。一棵树由具有相应属性的节点组成。在每个节点,我们根据可用特征询问有关数据的问题。左右分支代表可能的答案。最终节点(即叶节点)对应于预测值。每个特征的重要性由自上而下的方法确定。节点越高,其属性越重要。决定是否在餐厅等候的决策树示例。4.朴素贝叶斯朴素贝叶斯(NaiveBayes)是基于贝叶斯定理。它衡量每个类的概率,每个类的条件概率给出x的值。该算法用于分类问题以获得二进制“是/否”结果。看看下面的等式。朴素贝叶斯分类器是一种流行的统计技术,可用于过滤垃圾邮件!5.支持向量机(SVM)支持向量机(SupportVectorMachine,SVM)是一种用于分类问题的监督算法。SVM尝试在数据点之间绘制两条线,它们之间的边距最大。为此,我们将数据项绘制为n维空间中的点,其中n是输入特征的数量。在此基础上,支持向量机找到一个最优边界,称为超平面,它最好地将可能的输出按类别标签分开。超平面和最近的类点之间的距离称为边距。最优超平面具有最大的边界来分类点,使得最近的数据点和两个类之间的距离最大化。例如,H1没有将这两个类分开。但H2确实如此,但利润率非常小。H3以最大的间隔将它们分开。6.K-NearestNeighbors(KNN)K-NearestNeighbors(KNN)非常简单。KNN通过在整个训练集中搜索K个最相似的实例或K个邻居,并为所有这些K个实例分配一个公共输出变量来对对象进行分类。K的选择很关键:较小的值可能会给出很多噪声和不准确的结果,而较大的值则不可行。它最常用于分类,但也适用于回归问题。用于评估实例之间相似性的距离可以是欧氏距离、曼哈顿距离或闵可夫斯基距离。欧氏距离是两点之间的普通直线距离。它实际上是点坐标差的平方和的平方根。KNN分类示例7.K-meansK-means是通过对数据集进行分类来进行聚类。例如,该算法可用于根据购买历史对用户进行分组。它在数据集中找到K个簇。K-means用于无监督学习,所以我们只需要使用训练数据X,以及我们要识别的簇数K。该算法根据每个数据点的特征迭代地将每个数据点分配给K个组中的一个。它为每个K簇(称为质心)选择K个点。基于相似性,新的数据点被添加到具有最接近质心的集群中。这个过程一直持续到质心停止变化。8.随机森林随机森林(RandomForest)是一种非常流行的集成机器学习算法。该算法背后的基本思想是,许多人的意见比一个人的意见更准确。在随机森林中,我们使用决策树集成(参见决策树)。为了对新对象进行分类,我们从每个决策树中投票,合并结果,并根据多数票做出最终决定。(a)在训练期间,每个决策树都是基于训练集中的引导样本构建的。(b)在分类过程中,输入实例的决定是根据多数票做出的。9.降维由于我们今天能够捕获的数据量巨大,机器学习问题变得更加复杂。这意味着训练极其缓慢,而且很难找到好的解决方案。这个问题通常被称为“维数灾难”。降维试图通过在不丢失最重要信息的情况下将特定特征组合成更高级别的特征来解决这个问题。主成分分析(PCA)是最流行的降维技术。主成分分析通过将数据集压缩成低维线或超平面/子空间来降低数据集的维度。这尽可能地保留了原始数据的显着特征。可以通过将所有数据点近似为一条直线来实现降维的示例。10.人工神经网络(ANN)人工神经网络(ANN)可以处理大型复杂的机器学习任务。神经网络本质上是一组相互连接的加权边和节点层,称为神经元。在输入层和输出层之间,我们可以插入多个隐藏层。人工神经网络使用两个隐藏层。除此之外,还需要处理深度学习。人工神经网络的工作原理类似于大脑的结构。一组神经元被分配了一个随机权重,该权重决定了神经元如何处理输入数据。输入和输出之间的关系是通过在输入数据上训练神经网络来学习的。在训练阶段,系统可以获得正确的答案。如果网络无法准确识别输入,系统会调整权重。经过充分训练后,它会始终如一地识别正确的模式。每个圆形节点代表一个人工神经元,箭头代表从一个人工神经元的输出到另一个人工神经元的输入的连接。接下来是什么您现在已经对最流行的机器学习算法有了基本的介绍。您已准备好学习更复杂的概念,甚至可以通过深入的实践实践来实现它们。如果您想学习如何实施这些算法,Educative提供了一门Grokking数据科学课程,该课程将这些令人兴奋的理论应用于清晰、真实的应用程序。祝你学习愉快!