当前位置: 首页 > 科技观察

机器学习算法基础_0

时间:2023-03-22 00:12:22 科技观察

可用的算法太多了。困难在于既有不同种类的方法,也有对这些方法的扩展。这使得很快很难区分什么是正统算法。在这篇文章中,我希望为您提供两种思考和区分您将在该领域遇到的算法的方法。第一种划分算法的方法是基于它们如何学习,第二种是基于形式和功能的相似性(比如将相似的动物分组在一起)。两种方式都有用。学习的方式是基于它与经验、环境或我们所说的输入数据的交互,算法可以用不同的方式对问题建模。在机器学习和人工智能教科书中,流行的做法是首先考虑算法如何学习。算法的主要学习方法和学习模型只有几种。我们将一一介绍,并举例说明几种算法及其适合解决的问题类型。监督学习:输入数据称为训练数据,它们具有已知标签或结果,如垃圾邮件/非垃圾邮件或特定时间段内的股票价格。模型的参数需要通过训练过程来确定。在这个过程中,模型将被要求做出预测。当预测不匹配时,需要进行修改。无监督学习:输入数据未标记或具有已知结果。通过推断输入数据中存在的结构来构建模型。此类问题的示例是关联规则学习和聚类。算法的例子包括Apriori算法和K-means算法。半监督学习:输入数据由标记和未标记组成。合适的预测模型已经存在,但该模型还必须能够在预测时通过发现底层结构来组织数据。此类问题包括分类和回归。典型的算法包括对其他灵活模型的概括,这些模型对如何为未标记数据建模做出一些假设。强化学习:输入数据作为来自环境的刺激提供给模型,模型必须做出响应。反馈不像监督学习那样来自训练过程,而是来自环境的惩罚或奖励。典型的问题是系统和机器人控制。算法的例子包括Q-learning和TemporalDifferenceLearning。当您处理大量数据以对业务决策进行建模时,通常会使用监督和非监督学习。目前比较热门的是半监督学习,比如可以应用到图像分类中,涉及的数据集很大,但只包含很少的标记数据。算法相似性通常,我们通过功能和形式上的相似性来区分算法。如树结构和神经网络方法。这是一种有用的分类方法,但也不完美。仍然有一些算法很容易分为几类,例如学习矢量量化,它既是一种神经网络启发的方法,也是一种基于示例的方法。还有一些算法名称,不仅描述了它所处理的问题,还描述了某一类算法的名称,如回归、聚类等。正因为如此,您会看到来自不同来源的不同分类的算法。就像机器学习算法本身一样,没有完美的模型,只有足够好的模型。在本节中,我将以我认为最直观的方式列出许多流行的机器学习算法。尽管类别和算法都不是详尽无遗的,但我认为它们具有代表性,可以帮助您对整个领域有一个总体的了解。如果您发现未包含的算法或算法类别,请在回复中分享。让我们开始吧。回归分析回归是一种建模方法,它首先确定一个量来衡量模型的预测误差,然后通过这个量反复优化变量之间的关系。回归方法是统计学的一个主要应用,被归类为统计机器学习。这有点令人困惑,因为我们可以使用回归来指代一类问题和一类算法。实际上,回归是一个过程。以下是一些示例:普通最小二乘逻辑回归逐步多元自适应样条回归(MARS)局部多项式回归拟合(LOESS)基于实例的方法基于实例的学习模型根据数据中被认为重要或必要的训练实例对决策问题建模对于模型。这种方法通常建立一个实例数据库,然后根据某种相似性度量将新数据与数据库进行比较,找到最佳匹配,最后做出预测。因此,基于实例的方法也被称为“赢家通吃”方法和基于记忆的学习。这种方法侧重于现有实例的表示和实例之间的相似性度量。K-NearestNeighbors(kNN)LearningVectorQuantization(LVQ)Self-OrganizingMap(SOM)Regularizationmethod这是另一种方法(通常是回归分析方法)的扩展,它惩罚复杂度高的模型,倾向于泛化好的简单模型。我在这里列出了一些正则化方法,因为它们很流行、功能强大,而且通常只是对其他方法的简单改进。岭回归套索算法(LASSO)弹性网络决策树决策树学习方法根据数据中属性的实际值对决策过程建模。决策在树结构中分叉,直到可以对特定记录进行预测。在分类或回归问题中,我们使用数据来训练决策树。分类回归树算法(CART)迭代二叉树第三代(ID3)C4.5算法卡方自动交互检测(CHAID)单层决策树随机森林多重自适应样条回归(MARS)梯度提升机(GBM)Bayeux贝叶斯方法是将贝叶斯定理明确应用于分类和回归问题的方法。朴素贝叶斯算法AODE算法贝叶斯信念网络(BBN)核函数法最著名的核函数法就是现在流行的支持向量机算法,其实就是一系列的方法。核函数方法关注的是如何将输入数据映射到高维向量空间,在其中可以更容易地解决一些分类或回归问题。支持向量机(SVM)径向基函数(RBF)线性判别分析(LDA)聚类方法与回归一样,聚类既代表一类问题,也代表一类方法。聚类方法一般按建模方法分为:centroid-basedorhierarchical。所有的方法都是利用数据的固有结构,试图将数据归入具有最大共性的类别中。K-Means期望最大值(EM)关联规则学习关联规则学习是一类算法,用于提取最能解释观察到的数据中变量之间关系的规则。这些规则可以在大型立方体中发现重要的和商业上有用的关联,然后可以进一步利用这些关联。Apriori算法Eclat算法人工神经网络人工神经网络是受生物神经网络的结构和/或功能启发的算法。它们是一类常用于回归和分类问题的模式匹配方法,但实际上这个庞大的子类包含了数百种算法和算法变体,可以解决各种类型的问题。一些经典的流行方法包括(我已将深度学习从此类中分离出来):感知器反向传播算法Hopfield神经网络用于对人工神经网络进行现代改进的冗余计算资源。这些方法试图构建更大、更复杂的神经网络。如前所述,许多方法都是基于大数据集中非常有限的标记数据来解决半监督学习问题。受限玻尔兹曼机(RBMs)深度信念网络(DBNs)卷积神经网络堆叠自编码器(SAEs)降维方法与聚类方法一样,降维方法试图利用数据中的固有结构来概括或描述数据,不同之处在于它以无监督的方式使用较少的信息。这对于可视化高维数据或为以后的监督学习简化数据很有用。主成分分析(PCA)偏最小二乘回归(PLS)鲑鱼映射多维尺度分析(MDS)投影追踪集成方法集成方法由多个较弱的模型组成,这些模型是独立训练的,其预测以某种方式组合以获得总预测。许多努力都集中在选择什么类型的学习模型作为子模型以及以什么方式整合它们的结果。这是一类非常强大的技术,因此非常受欢迎。BoostingBootstrappingBagging自适应提升(AdaBoost)分层泛化策略(混合)梯度提升机(GBM)随机森林这是最佳拟合曲线集合的示例。弱成员用灰线表示,综合预测用红色表示。该图显示了使用局部多项式回归拟合(LOESS)拟合的模型的温度/臭氧数据。图片从公共领域获得许可,归因于维基百科。LookAroundMachineLearningAlgorithms的目的是让您对当今存在的算法有一个大概的了解,同时也为您提供工具将您可能遇到的算法相互联系起来。正如您所料,这篇文章附带的资源是一些其他优秀机器学习算法的列表。不要感到不知所措,了解很多算法很有用,但对一些关键算法的深刻理解和有效实现也很有用。本文由36大数据翻译团队darcher005翻译,36大数据编辑。转载本文需征得本站同意,并请附上译者、出处(36大数据)及本页链接。原文链接:http://www.36dsj.com/?p=8911