当前位置: 首页 > 科技观察

解锁AI、机器学习和深度学习

时间:2023-03-19 02:00:23 科技观察

【.com快译】了解AI、机器学习和深度学习的发展先来一点背景……深度学习是机器学习的一个子集,而机器学习又是一个子集人工智能的子集,但这些名称的起源来自一段有趣的历史。此外,还有一些令人着迷的技术特征将深度学习与其他类型的机器学习区分开来……对于任何在ML、DL或AI知识方面具有更高技能水平的人来说,这是一份必备的工作。如果您希望在2021年提高技能或指导业务/研究战略,您可能会看到一些文章谴责深度学习中的技能短缺。几年前,你会读到同样的文章关于缺乏具有机器学习技能的专业人员,而就在几年前,人们会关注缺乏精通“大数据”的数据科学家。同样,多年来我们听到吴恩达告诉我们“人工智能是新的电力”,并不断暗示人工智能在商业和社会中的出现将产生与工业革命类似的影响。虽然技能短缺的警告可能被夸大了,但为什么我们似乎改变了对最需要哪些技能的看法,而不是首先可以填补的职位?更广泛地说,受益于20/20的后见之明,为什么多年来人工智能研究有这么多不同的名称和头衔?在撰写本文时,在求职网站Indeed.com上搜索“深度学习”可获得约49,000次点击。这有点好笑,因为深度学习是机器学习的一个子集,而机器学习又是人工智能的一个领域,搜索机器学习和人工智能分别创造了大约40,000个和大约39,000个工作岗位。如果深度学习是人工智能的一部分,为什么后者的工作机会减少了20%左右?答案是我们在这些领域使用的术语往往与趋势和市场化程度以及任何实质性差异有关。这并不是说我们不能根据技术特征来区分类别,我们会的!事实上,深度学习和“经典”机器学习(包括浅层神经网络和统计学习)之间有一些非常有趣的新兴特征。在讨论这个之前,让我们先回顾一下AI的历史,我们会发现各种AI术语的流行与在它们落空之前产生很高的期望有很大关系,并最终在新世界中产生。当想法导致旧问题的新解决方案时,重新建立可信度。达特茅斯研讨会:人工智能得名达特茅斯研讨会是1956年由少数杰出数学家和科学家举办的夏季会议。该研讨会被广泛认为是人工智能领域的一项开创性工作,在AI的保护伞下以不同的名称(每个学科都有自己的概念基础)汇集了许多不同的学科。在1955年约翰·麦卡锡提出这次会议之前,思考机器的想法是在自动机理论和控制论等不同方法下进行的。出席的有克劳德·香农、约翰·纳什和马文·明斯基等知名人士。达特茅斯研讨会不仅汇集了与智能机器相关的几个独立研究领域,而且还对未来十年的研究提出了雄心勃勃的期望。事实证明,这些雄心壮志将以失望和第一个AI寒冬告终——这个术语用来描述AI炒作周期中的潮起潮落。1973年,英国詹姆斯·莱特希尔教授写了《人工智能:总体调查》,又名《莱特希尔报告》。在他的报告中,Lighthill描述了人工智能研究的三个类别:A、B和C。虽然他在A和C类(高级自动化和计算神经科学)中描述了一些未满足的期望,但Lighthill在非常明显的类别中描述了该领域最明显的不足B(又名机器人)。Lighthill的报告,连同一篇显示早期形式的浅层神经网络的一些缺点的论文,由MarvinMinsky和??SeymourPaypert设计的感知器,至今仍被认为是AI寒冬开始流行的主要预兆。70年代。“所有这些作品的学生普遍认为,期望在20世纪开发能够以学习或自组织模式有效处理大型知识库的高度通用系统是不现实的。”-JamesLighthill,《人工智能:综述》Connectionism在1980年代AI回归后不久,人们对AI的兴趣重新燃起,资金开始在80年代重新回到该领域。尽管神经网络和感知器领域第一次明显失宠(许多人指责明斯基和派尔特),但这一次它们将发挥重要作用。或许为了摆脱早先的失望,神经网络将以新的绰号重新进入合法研究:联结主义。事实上,现代深度学习时代的许多知名人士,如JürgenSchmidhuber、YannLeCun、YoshuaBengio和GeoffreyHinton,在1980年代和1990年代初期的工作中都在做反向传播和梯度消失问题等基础性工作,但80年代人工智能研究的真正头条新闻是人工智能领域的专家系统。与莱特希尔在报告中批评的“夸大其词”不同,专家系统实际上提供了可量化的商业利益,例如卡内基梅隆大学开发的XCON。XCON是一个专家系统,据报道每年可为DigitalEquipmentCorporation节省4000万美元。有了像XCON这样的系统和一些著名的游戏系统,商业研发实验室和政府项目的资金又回到了AI领域。然而,这不会持续太久。组合爆炸仍然是一个未解决的挑战,现实世界场景的复杂性变得难以估量。特别是,专家系统太脆弱,无法处理不断变化的信息,更新它们的成本也很高。同样,令人信服和有能力的机器人也无处可寻。RodneyBrooks和HansMoravec等机器人科学家开始强调,将人类专家知识提炼成计算机程序的艰苦手工工作不足以解决最基本的人类问题。诸如在繁忙的人行道上行驶或在嘈杂的人群中寻找朋友等技能。很快,在我们现在所知的莫拉维克悖论下,很明显简单的事情对人工智能来说很难,而像计算大笔资金或玩专家跳棋这样的困难事情相对容易。事实证明,专家系统既脆弱又昂贵,令人失望,但与此同时,基于学习的人工智能越来越受欢迎,许多研究人员开始涌向该领域。他们对机器学习的关注包括神经网络,以及各种其他算法和模型,例如支持向量机、聚类算法和回归模型。从1980年代到1990年代的过渡被一些人视为第二个人工智能冬天,在此期间实际上关闭了数百家人工智能公司和部门。其中许多公司当时都参与构建高性能计算(HPC),它们的倒闭表明摩尔定律将在AI的进步中发挥重要作用。IBM在1990年代后期开发的国际象棋锦标赛系统“深蓝”(DeepBlue)不是由更好的专家系统提供支持,而是通过alpha-beta搜索来支持计算。当您可以从家用台式机获得相同的性能时,为什么还要花高价购买专用的Lisp机器?虽然随着晶体管达到其物理极限,摩尔定律已大大放缓,但工程改进继续推动现代人工智能取得新的突破,由NVIDIA和AMD引领。现在,为最能支持现代深度学习模型的组件而设计的交钥匙AI工作站可以以与几年前最先进的硬件截然不同的速度进行迭代。神经网络在现实世界中的应用然而,就研究和实际应用而言,1990年代初期实际上更像是一个缓慢的孕育期。那时,未来的图灵奖获得者正在做开创性的工作,神经网络很快就会在光学字符识别中找到实际应用,以完成邮件分拣等任务。LSTM于1997年在梯度消失问题上取得了进展,并且在神经网络和其他机器学习方法方面继续进行有意义的研究。机器学习这个词继续流行,也许是认真的研究人员努力使自己与人工智能相关的过于雄心勃勃的主张(和科幻耻辱)保持距离。硬件的稳步进步和改进继续推动新千年人工智能的发展,但直到采用高度并行的图形处理单元(GPU)作为神经网络的自然并行数学原语,我们才进入了现代时代的深度学习。现代AI:深度学习即将到来在思考AI深度学习时代的开始时,我们中的许多人都会提到AlexKrizhevsky等人的成功。关于2012年ImageNet大规模视觉识别挑战及其GPU训练模型。虽然以今天的标准来看规模不大,但所谓的AlexNet明显优于竞争领域的方法。此后,这一挑战的成功基于与卷积神经网络相似的原理,因此在动物视觉系统中,卷积网络的许多性质和训练过程中学习到的核权重具有相似性也就不足为奇了。AlexNet并不是一个特别深的卷积神经网络,它从tip到tail跨越8层,只比20多年前描述的卷积网络LeNet-5(pdf)深3层。相反,AlexNet的主要贡献是证明在GPU上进行训练既可行又非常值得。在AlexNet开发的直接血统中,我们现在拥有专门设计的GPU,以支持更快、更高效的深度神经网络训练。AlexNet成为AI突破的原型2012ILSVRC和AlexNet在比赛中的表现非常具有标志性,成为过去十年AI突破的原型。无论好坏,人们都在谈论自然语言处理、机器人技术和步态分析的“ImageNet时刻”,仅举几例。从那时起,我们已经取得了长足的进步,深度学习模型在玩游戏、生成令人信服的文本以及其他属于上述Moravec悖论中提到的“简单即困难”类型任务的类别中表现出色,表现出接近人类的表现或更好。深度学习也为基础科学研究做出了贡献,并在2020年对蛋白质结构预测生物学的基础挑战做出了明显贡献。硬件加速使训练深度和广泛的神经网络成为可能,但这并不能解释为什么甚至为什么较大的模型比较小的模型产生更好的结果。GeoffreyHinton被广泛认为是现代深度学习时代的先驱之一,他在他的《机器学习神经网络MOOC》中提出机器学习与神经网络在7个层次上成为深度学习。我们不认为这是一个错误的经验法则,接近深度学习范式的开始,但我们认为通过考虑深度学习模型的训练方式与其他形式的机器学习有何不同,我们可以更有意义地划清界限。还值得注意的是,虽然深度学习通常是指由多层完全连接或卷积神经层组成的模型,但该术语还包括神经ODE或神经元胞自动机等模型。使深度学习成为可能的是计算复杂性和操作深度,层不一定需要由人工神经元组成。摆脱偏差-方差权衡和深度学习统计学习是本文未涉及的机器学习的一个子集,但仍然是数百万数据和基础研究科学家的重要专业领域。在统计学习和机器学习中,对于较小模型和数据集最重要的概念之一是偏差方差权衡。偏差对应于训练数据的欠拟合,通常是模型无法拟合以表示数据集中的模式的症状。另一方面,方差对应于非常适合训练数据的模型,以至于它对验证数据的泛化能力很差。一个更容易记住的同义词是“underfit/overfit”。简单分类问题中过度拟合的卡通示例。深紫色斑点代表训练数据,黑色决策边界已经过拟合。较浅的紫色点已被正确排除在决策边界之外,但未出现在训练集中的两个橙色斑点(见箭头)被错误地归类为组外。背景中的虚线表示真实的分类边界。对于统计模型和浅层神经网络,我们通常可以将欠拟合解释为模型太小的症状,而过拟合则是模型太大的症状。当然,有许多不同的策略可以对模型进行正则化以使其泛化效果更好,但我们将把这个讨论留到下次再讨论。较大的模型也倾向于更好地利用较大的数据集。大型模型利用大型数据集的能力的卡通表示。图片由作者提供。训练数据和验证数据集的模型性能差异往往会表现出过度拟合,并且随着训练次数/模型的增加,这种偏差会变得更糟。然而,当模型和数据集都变大时,会出现一个有趣的现象。这种引人入胜的双下降涌现特性指的是性能提升的初始阶段,随后由于过度拟合导致性能下降,但最终被性能更好的性能所取代。这种情况随着模型深度、宽度或训练数据的增加而发生,这可能是区分深度学习和浅层神经网络的最合乎逻辑的地方。深双水滴的卡通形象,图片由作者提供。泛化,而像dropout这样的正则化技术往往会产生更好的结果。深度学习的其他特征,例如彩票假设可能是相关的。总结人工智能子领域的历史和理论基础我们对人工智能的几个子领域的历史和基本原理的讨论,以及它们在其历史的不同阶段被称为什么。我们还讨论了深度学习模型的一个有趣的识别特征,当我们直觉地预期它们会严重过度拟合时,它会随着大小或数据的增加而不断改进。当然,如果您要向投资者/经理/资助者介绍项目,或向潜在雇主介绍自己,那么您可能需要从营销角度考虑术语。在这种情况下,你可能想把你的工作描述为人工智能,对公众来说是深度学习,对投资者来说,对会议上的同事和同事来说是机器学习。来源:DZone原文链接:https://dzone.com/articles/disentangling-ai-machine-learning-and-deep-learnin