当前位置: 首页 > 科技观察

揭开人工智能、机器学习和深度学习的神秘面纱

时间:2023-03-16 19:57:20 科技观察

深度学习、机器学习、人工智能——这些流行语代表了分析的未来。在这篇文章中,我们将通过一些真实世界的例子来解释什么是机器学习和深度学习。在以后的文章中,我们将探讨垂直用例。这样做的目的不是让你成为数据科学家,而是让你更好地了解你可以用机器学习做什么。开发人员越来越容易使用机器学习,数据科学家经常与领域专家、架构师、开发人员和数据工程师一起工作,因此详细了解机器学习的可能性对每个人都很重要。您的企业生成的每条信息都有可能增加价值。这篇文章和以后的文章旨在启发您审查自己的数据以发现新的机会。什么是人工智能?纵观人工智能的发展史,其定义不断被改写。AI是一个总称(这个概念始于50年代);机器学习是人工智能的一个子集,深度学习是机器学习的一个子集。1985年,当我在NSA实习时,人工智能也是一个非常热门的话题。在国家安全局,我什至参加了麻省理工学院关于人工智能专家系统的视频课程。专家系统在规则引擎中获取专家知识。规则引擎广泛应用于金融和医疗保健等行业,最近还用于事件处理,但当数据发生变化时,更新和维护规则会变得极其困难。机器学习的优势在于它从数据中学习并可以提供数据驱动的概率预测。分析在过去10年发生了怎样的变化?根据《哈佛商业评论》的ThomasDavenport的说法,分析技术在过去十年中发生了翻天覆地的变化,在商品服务器上分布的功能更强大、成本更低正式计算、流分析和改进的机器学习技术都使企业能够存储和分析更多和不同类型的数据。ApacheSpark等技术使用迭代算法通过在内存中跨迭代缓存数据和使用轻量级线程来进一步加速分布式数据的并行处理。图形处理单元(GPU)可加速多核服务器的并行处理。GPU具有大规模并行架构,其中包含数千个更小、更高效的内核,专门设计用于同时处理多个任务,而CPU则由多个内核组成,这些内核针对顺序串行处理进行了优化。就潜在性能而言,从Cray-1发展到如今拥有大量GPU的集群,其速度比曾经是世界上最快的计算机快约一百万倍,而成本却只有它的一小部分。什么是机器学习?机器学习使用算法来发现数据中的模式,然后使用识别这些模式的模型对新数据进行预测。一般来说,机器学习可以分为三种类型:有监督的、无监督的和介于两者之间的。监督学习算法使用标记数据,而无监督学习算法发现未标记数据中的模式。半监督学习使用标记和未标记数据的混合。强化学习训练算法以根据反馈最大化奖励。监督学习监督算法使用标记数据,这些数据作为输入和目标结果或标签提供给算法。监督学习也称为预测建模或预测分析,因为您构建的模型可以进行预测。预测建模的一些示例是分类和回归。分类基于已知项目的标记示例(例如,已知交易是欺诈性的)来识别项目属于哪个类别(例如,交易是否是欺诈性的)。逻辑回归预测概率——例如,欺诈的概率。线性回归预测一个数值——例如,欺诈数量。一些分类示例包括:信用卡欺诈检测(欺诈,非欺诈)。信用卡申请(良好信用,不良信用)。垃圾邮件检测(垃圾邮件,不是垃圾邮件)。文本情感分析(快乐,不快乐)。预测患者风险(高风险患者、低风险患者)。恶性或非恶性肿瘤的分类。逻辑回归(或其他算法)的一些示例包括:根据历史汽车保险欺诈索赔和这些索赔的特征(例如索赔人的年龄、索赔金额、事故严重程度等)预测欺诈发生的概率。给定患者特征,预测充血性心力衰竭的概率。因此,线性回归的一些示例包括:根据历史汽车保险欺诈索赔和这些索赔的特征(如索赔人年龄、索赔金额、事故严重程度等)预测欺诈金额根据历史房地产销售价格预测房屋价格和家庭特征(例如面积、卧室数量、位置)。根据历史社区犯罪统计数据预测犯罪率。这里还有其他有监督和无监督的学习算法,我们不会全部介绍,但我们将详细介绍每个类别中的一种。分类示例:借记卡欺诈分类采用一组具有已知标签和预定特征的数据,并学习如何根据这些信息标记新数据。功能是您提出的“是否”问题。标签是这些问题的答案。让我们看一个借记卡欺诈的例子。我们想要预测什么?某笔借记卡交易是否存在欺诈。欺诈是标签(真或假)。您可以用来做出预测的“如果”问题或属性是什么?今天花费的金额是否高于历史平均水平?这些交易今天在多个国家/地区进行吗?今天的交易数量是否大于历史平均水平?今天新入驻的商家种类比前三个月高吗?今天是否在具有风险类别代码的多个商家处进行了购买?与过去使用PIN相比,今天有什么不寻常的签名吗?与过去三个月相比,有没有新的采购?与过去三个月相比,现在有外国采购吗?要构建分类器模型,您需要提取对分类贡献最大的有用特征。决策树决策树创建一个模型,该模型根据输入特征预测类别或标签。它的工作原理是评估一个问题,该问题在每个节点都包含一个特征,然后根据答案选择到下一个节点的分支。用于预测借记卡欺诈的可能决策树如下所示。属性问题是节点,“是”或“否”的答案是树中到子节点的分支。(请注意,真正的树会有更多节点。)问题1:24小时内的支出是否高于平均水平?是问题2:高风险商户今天是否有多次交易?是欺诈概率=90%非欺诈概率=50%决策树很受欢迎,因为它们易于可视化和解释。将该算法与集成方法相结合可以提高模型的准确性。集成示例是一种随机森林算法,它组合了决策树的多个随机子集。无监督学习无监督学习,有时称为描述性分析,没有预先提供的标记数据。这些算法在输入数据中发现相似性或规律性。无监督学习的一个例子是根据购买数据对相似的客户进行分组。聚类在聚类中,一种算法通过分析输入实例之间的相似性来对输入实例进行分类。一些集群用例包括:搜索结果分组。将相似的客户分组。将相似的患者分组。文本分类。网络安全异常检测(发现差异,集群中的异常值)。K-means算法将数据分为K个簇,每个数据属于最接近其簇中心均值的簇。集群的一个例子是当一家公司希望细分其客户以便更好地定制产品和服务时。客户可以按人口统计和购买历史等特征进行分组。为了获得更有价值的结果,无监督学习的聚类往往与监督学习相结合。例如,在这个银行客户360用例中,首先根据问卷答案对客户进行细分。然后分析客户群体,标记用户画像。然后,这些标签通过客户ID与帐户类型和购买内容等属性相关联。最后,我们对标记的客户应用了监督机器学习,允许将调查人物角色与其银行行为联系起来,以提供深刻的见解。深度学习深度学习被称为多层神经网络,它是由输入和输出之间的节点“隐藏层”组成的网络。神经网络有很多变体,您可以在此神经网络备忘单上了解更多信息。改进的算法、GPU和大规模并行处理(MPP)使具有数千层的神经网络成为可能。每个节点接受输入数据和一个权重,然后向下一层节点输出一个置信度值,直到到达输出层,并计算置信度值的误差。通过在称为梯度下降的过程中进行反向传播,错误再次通过网络发回,并调整权重以改进模型。这个过程重复数千次,根据产生的误差调整模型的权重,直到误差不能再减少为止。在此过程中,每一层都学习模型的最优特征,其优点是不需要预先确定特征。然而,这也意味着模型的决策不可解释的缺点。由于解释决策可能很重要,研究人员正在开发新的方法来理解深度学习的黑匣子。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。