当前位置: 首页 > 科技观察

人工智能的主要发展及其驱动力

时间:2023-03-20 14:29:41 科技观察

今天的演讲是贾扬清为阿里巴巴CIO学院举办的人工智能(AI)技术专题培训班准备的。直播中,贾扬清探讨了AI涉及的工程和产品实践。首先,他介绍了人工智能及其应用。随后,与会者讨论了人工智能系统中的重要问题,包括推动算法创新的计算能力突破和云平台可以提供的价值。最后,贾总分析了大数据与人工智能的关系,探讨了企业应如何接受人工智能,并提出了企业智能化战略的重点。商业价值与人工智??能的5大原则|数据驱动的投资者难以获取商业价值。我的意思是非常难......在高级分析方面,过程甚至......算法人工智能已经成为一个重要的技术趋势。现在各行各业都在拥抱AI,并与它的联系越来越紧密。下图列出了人工智能发挥重要作用的领域,不仅包括与人工智能密切相关的领域,还包括人工智能间接赋能的领域。在我们超越自己之前,我们需要了解人工智能、它的应用以及它的系统背后的思想。随着AI在过去80年的发展,我们已经从图灵测试走向了所有人的变革。机器像人类一样使用AI来回答问题并创建或执行计算和分析任务。在某些领域,计算机已经实现了人类的能力。比如2019年发布的换脸APP,就是基于深度学习和神经网络在AI领域的广泛应用。目前,很多人工智能应用在我们的日常工作和生活中取代了人类的工作。例如,ElonMusk的AI项目能够模拟人脑的运作。然而,随着人工智能的快速发展,也有一些我愿意称之为“假人工智能”的例子。在人工智能的发展过程中,我们不得不面对几个虚假的人工智能项目,例如,一个严重的虚假人工智能项目骗取了2亿元人民币(超过2800万美元)的投资者。因此,我们需要更好地了解人工智能是什么以及如何使用它。在学术界,人工智能的定义有些不同。人工智能是对人类智能的模拟,能够接收和分类信息,合理地执行一系列任务,并据此做出决策。它的主要特征之一是能够理性行事。人工智能从感知到决策反馈的过程。决定人工智能系统能否采取适当行动的一个关键因素是它们如何感知外界信息。由于人工智能试图模拟人脑,感知的过程实际上是理解和学习的过程。这就是深度学习试图用人工智能解决的问题。只有将视频、文本或语音命令等外部信息翻译成机器语言,深度学习AI才能接受和响应。科学家们从人工智能的早期就开始考虑和研究这个问题。随后,人们开始讨论和研究如何通过视觉感知输入信息。2012年,加拿大多伦多大学ImageNet竞赛的获胜者GeoffreyHinton和他的学生AlexKrizhevsky设计了一个解决方案。在那一年之后,更深层的神经网络被提出,比如著名的VGG和GoogLeNet。这些神经网络为传统的机器学习分类算法提供了出色的性能。AlexNet深度学习的历史简而言之,AlexNet的目的是从大量的对象中准确地识别出命令中想要的对象。该模型的应用加速了图像识别领域的发展,现已得到广泛应用。与我们的人脑一样,神经网络使用多层学习模型,该模型在学习过程中变得更加复杂。假设你想从数百万张图片中找到标记为“猫”的图片,并在一个非常大的数据集上训练一个编辑过的视觉网络模型。然后,通过模型迭代实现更复杂的训练。目前常用的RestNet模型深度有一百多层,并且融合了一些最新的科研成果,比如下图底部的快速桥接。这允许用户快速有效地训练深度网络。最终,这解决了视觉感知的问题。阿里云:智慧航空停机坪管理该解决方案通过人工智能识别机型、登机口和机场车辆,并将其反映在实际地图上。它还允许用户在飞行过程中看到飞机的轨迹。这些信息可以作为人工智能管理的输入,让机场运营更加便捷高效。如前所述,深度学习是一种重要的感知模式和方法。深度学习算法主要包括:数据标注算法模型开发高性能分布式训练模型优化模型部署和感知后,AI系统需要进行决策。深度学习是一种黑盒操作,可以学习和感知外部信息,但不能提供任何解释感知问题原因的反馈。因此,分析和反馈需要决策能力。传统机器学习的例子主要包括决策树算法和逻辑回归。例如,银行发放贷款的过程就是一个决策过程,在权衡各种因素后输出决策。我们可以使用决策树输出“是”或“否”的判断来决定是否授予贷款。逻辑回归是指两种数据之间的相关性。这是一种输出精确解的数学方法。事实上,深度学习和机器学习是相辅相成的。深度学习可以解决计算机视觉、语音识别等感知问题。它使用神经网络架构解决了许多感知问题,但未能解释它们。传统的机器学习不提供这种用户友好的感知能力。但其相对较小的尺寸允许直接解释,这在金融和风险控制场景中是必需的。长期以来,人工智能一直被用于广告。淘宝是最常见的广告场景之一。卖家首先根据消费者的个人浏览信息调查用户的喜好,然后通过智能推荐系统推送与消费者搜索相关的商品。这种智能算法的广泛应用使得用户信息挖掘更加高效和准确。感知和决策都取决于算法。感知:感知过程与深度学习算法相关,涉及数据标注、算法模型开发、高性能分布式训练、性能优化、模型部署等。决策:决策过程与传统的机器学习算法和深度学习算法有关。涉及行业行为数据采集、结构化与非结构化数据处理、数据与算法联合建模、算法开发训练与调整、模型部署、实时训练反馈。随着人工智能系统中算法的快速发展,相应的基础设施支撑变得越来越重要。这需要AI系统的支持。构建人工智能或机器学习系统的两个基本因素是算法和计算能力。算法创新是由计算能力的突破驱动的。下图显示了到2019年人工智能所需的计算能力。AlexNet所需的计算能力是AlphaGoZero所需计算能力的300,000倍。在这种情况下,算法迭代和算法实现的解决方案对系统提出了更高的要求。下图是2013年的AlexNet系统,只要给机器加个GPU,训练成本大概是每天500瓦,持续7天。这意味着商业模式的迭代周期约为一周。在当今商业需要快速开发广告推荐等模型的时代,一周的模型迭代周期太长了。因此,人们越来越有兴趣使用大型集群或芯片为人工智能系统提供更高的计算能力。根据麻省理工学院2014年的对比,一个人一分钟可以处理大约77张图像,而同期单个GPU可以处理230张图像。虽然单个GPU的处理速度不会比人类快很多,但是我们可以通过GPU集群实现更大规模、更快的计算。如下图所示,一个512个GPU的集群一分钟可以处理600,00张图片。在设计人工智能系统时,需要关注如何实现高性能的存储,实现机器间的快速通信,以及维护分布式集群的稳定性。目前,阿里云内部有一个Eflops平台,可以在三分钟内实现10×1的计算,每分钟耗电128KW。这样的系统在2015年之前是不可想象的。我们能够实现这个功能很大程度上得益于系统底层的大规模集群和芯片的可扩展性。目前,全球很多企业,尤其是中国企业都在研发高性能芯片,阿里巴巴也不例外。2019年,阿里巴巴发布了全球最高性能的AI推理芯片含光800,该芯片在城市大脑和航空大脑的实际场景中进行了测试,达到了每秒近80万张图片的峰值性能。与上一代产品相比,性能提升了约4000%。通过增加软件和硬件复杂性、资源管理、高效调度和系统范围的优化,增加系统复杂性会产生许多问题。这是系统开发过程中各方都必须面对的挑战。您必须意识到AI集群不是通用集群。AI训练过程中,子任务需要定时同步,需要不同机器之间的高性能通信。在大多数情况下,使用基于GPU或NPU的专用组件。当前,不同的计算模型和交互方式对人工智能训练提出了重大挑战。人工智能在阿里巴巴的各种业务场景中都有应用。因此,我们可以结合实际的人工智能应用来优化平台设计。比如手淘的拍力淘(Snap-and-search)分类模型有百万类目,淘宝的Voice+NLP解决方案,阿里妈妈的广告推荐系统。优化后的飞天AI平台分为三层,分别是底层基础设施、中层训练推理框架、顶层开发平台。AI平台主要分为三类:轻量级AI开发平台:帮助算法和数据科学家一键开发、调试、部署的平台。人工智能与大数据协同开发平台:帮助用户快速开发面向大数据的业务系统。AI推理服务平台:解决计算资源问题,提供推理所需的模型训练、部署和性能监控。这三类平台支持算法API的输出,以及垂直领域平台和大脑解决方案的开发。在深度学习领域,斯坦福大学推出了名为DAWNBench的基准测试。与之前的出色表现相比,阿里云的机器学习解决方案提升了约10%的性能。如今,人工智能技术能力在提高资产利用率、满足不同场景需求方面发挥着重要作用。全面的人工智能技术能力主要依赖于以下基础设施和服务:基础硬件:提供通用计算能力和人工智能计算能力。它还通过基础架构即服务(IaaS)提供云功能。AI云服务:这个底层平台即服务(PaaS)层通过易于访问的软件和硬件环境提供适合绝大多数用户的计算能力。高性能计算:这将加速核心人工智能计算引擎。AISystemFramework:这提供了AI计算模型和跨架构建模、迭代和部署的完整抽象。AI托管平台:提高算法研发的共享部署和输出效率。它还提供了一个具有高用户粘性的开发平台。智能计算与数据计算人工智能用于智能计算,大数据用于数据计算。两种功能相辅相成。人工智能的数据支撑需要大量数据的支持,才能支撑前述的算法和计算能力。数据是算法和算力价值的重要体现。下面两张图分别是2005年和2013年的教皇接见。随着移动互联网的发展,数据呈指数级增长,大量的可用数据提高了深度学习的性能。1998年一个小型MNIST系统的训练数据只有10MB,2009年ImageNet的训练数据为200GB,2017年WebVision有3TB的数据集,一个典型产品的视觉系统需要1PB的数据.海量的数据帮助阿里巴巴的业绩几乎呈线性提升。让我们看一个我们都熟悉的常见场景来说明更大的数据量如何提高性能。在X射线医学诊断领域,研究表明,医生根据X射线图像诊断疾病的能力与他们观看的X射线图像的数量直接相关。他们检查的图像越多,诊断就越准确。同样,现在的医疗引擎系统可以通过大型计算机系统在更多数据上进行训练,从而实现更精准的医疗诊断。人工智能让大数据更智能下图显示了大数据领域的趋势。目前大数据领域希望提取更多的信息,实现实时计算,AI平台化,在线预测。所有这些趋势都指向大数据的不断增长的智能。目前,包括结构化、半结构化和非结构化数据在内的不同类型的数据从多个数据源获取并存储在数据仓库中。为了利用这些数据的潜在价值,需要智能计算。在广告推荐的情况下,数据来源是用户在淘宝上的点击、浏览和购买。数据通过离线或实时同步和离线或实时提取-转换-加载(ETL)写入数据仓库。然后,基于数据仓库或数据湖解决方案生成和训练各种数据模型。最后通过数据服务输出训练结果。如您所见,理解和使用数据的过程变得越来越智能。几年前,混合事务/分析处理(HTAP)包括OLTP和OLAP。OLAP又可以分为大数据、离线和实时分析。不同的引擎适用于不同数据量的情况。当前,数据业务变得越来越重要。在一些智能客服场景中,需要数据抽取模型进行实时AI推理服务和应用。因此,找到一种将分析和服务结合起来的方法至关重要。这就是我们目前追求混合服务和分析处理(HSAP)的原因。结合AI,我们可以通过离线和实时数仓从数据中提取洞察,通过线上服务将这些洞察呈现给用户。阿里巴巴在自己的应用中开发了基于人工智能的大数据方法和解决方案。双十一的离线计算(批处理)、实时计算(流计算)、交互分析、图计算等方案与飞天AI平台相结合,提供飞天赋能的新一代飞天大数据产品人工智能。与人工智能类似,大数据也注重性能。根据TPCbenchmark测试,2019年,阿里云大数据平台MaxCompute和E-MapReduce在计算性能和成本效益方面表现出显着优势。下图显示了基准测试结果。目前阿里巴巴的AlimeBot应用基于AI的深度学习和智能感知技术,在用户服务场景中为用户提供智能语音交互服务。为实现智能化表现,必须与大数据业务系统紧密结合,如物流或用户数据系统。这就引出了下一个问题:企业应该如何拥抱人工智能?总之,要让人工智能成为现实,我们应该从应用需求出发,循序渐进地创新,就像爱迪生改进电灯泡一样。云提供了低成本、高性能和高稳定性的基础设施,但对我们来说关键是要明确我们的需求。过去几年,人工智能领域一直致力于算法创新和论证,但这还远远不够。人工智能算法只是系统的一部分。在实施人工智能时,企业还必须考虑如何收集数据、获取有用的功能,以及如何进行验证、流程管理和资源管理。人工智能不是万能的,但也不容忽视。企业采用人工智能,首先要从业务考虑入手。随着数据量和算法数量的增加,打造一支懂业务的数据工程师和算法工程师团队至关重要。这是智能企业成功的关键。我们提到的所有算法、计算能力和数据解决方案都可以通过使用目前在云端可用的服务和解决方案来实现。这可以帮助企业更快地实施人工智能。