当前位置: 首页 > 科技观察

一篇读懂机器学习:基本概念、五流派、九大常用算法

时间:2023-03-21 00:24:38 科技观察

一、机器学习概述1、什么是机器学习?机器通过分析大量数据来学习。例如,不是通过编程来识别猫或人脸,而是可以使用图片训练它们来概括和识别特定对象。2.机器学习与人工智能的关系机器学习是一门研究和算法的学科,其重点是在数据中寻找模式并使用这些模式进行预测。机器学习是人工智能领域的一部分,与知识发现和数据挖掘交叉。3.机器学习是如何工作的①选择数据:将你的数据分为三组:训练数据、验证数据和测试数据②模型数据:使用训练数据构建一个使用相关特征的模型③验证模型:使用你的验证dataPluginyourmodel④Testmodel:使用你的测试数据来检查验证模型的性能⑤Usethemodel:使用完全训练好的模型对新数据进行预测⑥Tunethemodel:使用更多数据,不同的特征或调整参数来改进算法的性能4.机器学习的定位①传统编程:软件工程师编写程序来解决问题。首先有一些数据→为了解决一个问题,软件工程师写了一个流程告诉机器该做什么→计算机按照这个流程得出一个结果②统计:分析师比较变量之间的关系③机器学习:数据科学家使用训练数据集来教计算机做什么,然后系统执行该任务。先有大数据→机器学习使用训练数据集进行分类,并调整特定的算法来实现目标分类→计算机可以学习识别数据中的关系、趋势和模式④Intelligentapplication:智能应用利用人工智能获得结果,如图是精准农业的一个应用案例,它是基于无人机采集的数据5.机器学习的实际应用机器学习有很多应用场景,这里举几个例子,你会如何使用它?快速3D映射和建模:为了建造一座铁路桥,普华永道数据科学家和领域专家将机器学习应用于无人机收集的数据。这种结合可以在工作成功时实现精确监控和快速反馈。增强分析以降低风险:为了检测内幕交易,普华永道结合机器学习和其他分析技术来开发更全面的用户档案,并更深入地了解复杂的可疑行为。预测最佳表现目标:普华永道使用机器学习和其他分析来评估不同马匹在墨尔本杯比赛中的潜力。2.机器学习的演进几十年来,人工智能研究者的各个“部落”一直在相互争夺霸主地位,详见机器之心一文《华盛顿大学教授 Pedro Domingos:机器学习领域五大流派(附演讲 ppt)》。这些部落是时候团结起来了吗?他们可能也必须这样做,因为合作和算法融合是实现真正的通用人工智能(AGI)的唯一途径。以下是机器学习方法是如何演变的以及未来可能会是什么样子。1、五大流派①象征主义:用符号、规则、逻辑来表示知识,进行逻辑推理。我最喜欢的算法是:规则和决策树②贝叶斯主义:获取发生的可能性进行概率推理。我最喜欢的算法是:NaiveBayesorMarkov③Connectionism:使用概率矩阵和加权神经元来动态识别和泛化模式,最喜欢的算法是:NeuralNetwork④Evolutionism:产生变化,然后针对特定的目标在其中取得最好的,最喜欢的算法是:遗传算法⑤Analogizer:根据约束条件优化函数(尽可能往高处走,但同时不要离路),最喜欢的算法是:支持向量机2.EvolutionaryStage1980sDominantSchool:符号体系结构:服务器或大型机主导理论:知识工程基本决策逻辑:决策支持系统,实用性有限1990年代至2000主导学派:贝叶斯体系结构:小型服务器集群主导理论:概率论分类:可扩展的比较或对比,对许多人来说足够好任务2010年代初期至中期主导类型:连接主义架构:大型服务器场主导理论:Neuroscienceandprobabilisticrecognition:更准确的图像和声音识别,翻译,情感分析等。3.这些学派有望合作,将各自的方法融合在一起2010年代后期主导学派:连接主义+象征主义架构:许多云主导理论:记忆神经网络、大规模集成、简单的基于知识的推理问答:范围狭窄、特定领域的知识共享2020年代+主导流派:连接主义+符号主义+贝叶斯+...架构:云计算和雾计算主导理论:有网络就有网络是感知、推理和工作当有规则时简单的感知、推理和行动:有限的自动化或人机交互2040s+主导类型:算法融合架构:无处不在的服务器主导理论:元学习感知和响应的最佳组合:基于学习如何根据获得的知识或经验采取行动或回答3.机器学习您应该使用哪种机器学习算法?这在很大程度上取决于可用数据的性质和数量以及每个特定用例的训练目标。不要使用最复杂的算法,除非结果值得昂贵的开销和资源。这里给出了一些最常见的算法,按易用性排序。更多内容请参考机器之心的文章《机器学习算法集锦:从贝叶斯到深度学习及各自优缺点》和《经验之谈:如何为你的机器学习问题选择合适的算法?》。1.决策树(DecisionTree)在逐步回答的过程中,典型的决策树分析会使用层次变量或决策节点。例如,您可以使用将给定用户分类为可信或不可靠。优点:擅长对人、地、物的一系列不同特征、品质、特性进行评价场景:基于规则的信用评价,赛马结果预测2.支持向量机(SupportVectorMachine)是基于超平面(hyperplane),支持向量机可以对数据组进行分类。优点:支持向量机擅长对变量X和其他变量进行二元分类操作,不管关系是否线性。场景示例:新闻分类、手写识别。3.回归(Regression)回归可以勾勒出因变量与一个或多个因变量之间的状态关系。在这个例子中,垃圾邮件和非垃圾邮件是有区别的。优点:回归可以用来识别变量之间的连续关系,即使关系不是很明显场景示例:道路交通流量分析,邮件过滤4.朴素贝叶斯分类(NaiveBayesClassification)朴素贝叶斯分类器用于计算概率条件分支概率。每个单独的特征都是“朴素的”或条件独立的,因此它们不会影响其他对象。例如,在一个装有5个黄色和红色球的罐子中,连续获得两个黄色球的概率是多少?从图中最上面的分支可以看出前后抓到??两个黄球的概率是1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。优点:朴素贝叶斯方法可以在小数据集中快速对具有显着特征的相关对象进行分类场景示例:情感分析,消费者分类5.隐马尔可夫模型(HiddenMarkovmodel)丈夫过程是完全确定的——一个给定的状态将永远跟随另一个状态。交通灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的出现。然后,借助隐状态分析,隐马尔可夫模型可以估计未来可能的观察模式。在这个例子中,气压高或低的概率(即隐藏状态)可以用来预测晴天、雨天、阴天的概率。优点:允许数据可变性,适用于识别(recognition)和预测操作场景示例:面部表情分析,天气预报6.随机森林(Randomforest)随机森林算法使用多棵树提高决策树的准确性。此示例在基因表达水平上检查大量与乳腺癌复发相关的基因,并计算复发风险。优点:随机森林方法已被证明对具有大量且有时不相关的特征的大规模数据集和项目有用。应用场景:用户流失分析、风险评估7.递归神经网络(Recurrentneuralnetwork)在任意一个神经网络中,每个神经元通过1个或多个隐藏层将许多输入转化为单个输出。递归神经网络(RNN)将值进一步逐层传递,使得逐层学习成为可能。换句话说,RNN具有某种形式的记忆,允许先前的输出影响后来的输入。优点:循环神经网络在大量有序信息时具有预测能力场景示例:图像分类和字幕添加、政治情绪分析8.长短期记忆(Longshort-termmemory,LSTM)和门控循环单元神经网络network(gatedrecurrentunitneuralnetwork):早期的RNN形式会有损失。虽然这些早期的循环神经网络只允许保留少量的早期信息,但最近的长短期记忆(LSTM)和门控循环单元(GRU)神经网络同时具有长期和短期记忆。换句话说,这些较新的RNN具有更好的内存控制能力,允许保留较早的值或在需要处理许多系列步骤时重置它们,从而避免“梯度衰减”或从层传递值tolayer最终退化。LSTM和GRU网络允许我们使用内存模块或称为“门”的结构来控制内存,这些内存模块或结构会在适当的时候传递或重置值。优点:长短期记忆和门控递归单元神经网络与其他递归神经网络具有相同的优点,但由于具有更好的记忆能力,因此更常用于场景示例:自然语言处理、翻译9.卷积神经网络Network(convolutionalneuralnetwork)卷积是指融合来自后续层的权重,可以用来标记输出层。优点:卷积神经网络在数据集非常大、特征数量多、分类任务复杂的时候非常有用场景示例:图像识别、文本转语音、药物发现