刚刚结束的双十一期间,天猫的交易额达到2684亿元,同比增长25.7%。这一成绩的背后,离不开云计算、人工智能等技术和阿里巴巴工程师的努力。在正在进行的AICon全球人工智能与机器学习技术大会上,阿里云智能计算平台事业部研究员林伟介绍了阿里基于飞天AI平台的人工智能技术与能力,并透露在双11大规模交易场景,阿里人工智能技术之谜。大家好,我是林薇,今天演讲的题目是《AI 突破无限可能—5 亿消费者的云上双 11》。我自己是系统出身的,但是在最近的一些会议上,我发现越来越多的系统出身的人开始研究AI。90年代末的繁荣时期,我有幸留在了学校的人工智能实验室。当时还在纠结于模型的效果,最后发现自己想多了,当时做出来的东西还远远不能用。地位。一段时间后,AI沉寂了下来,这几年突然火了起来。我在一些学校交流的时候,发现很多同学都在研究AI算法,但其实神经网络、遗传算法、仿真算法在很多年前就已经发展起来了。近年来爆发的主要原因是数据和计算能力的提高。其中,云计算也发挥了很大的作用。只有当计算能力更充足时,才能拟合出更有效的模型。这也是阿里巴巴在2009年坚定投入云计算的一个重要原因。说起阿里云,其实阿里云的一个非常大的客户就是阿里巴巴自己的电商业务,也是阿里巴巴电商一年中最重要的事件。-commerce就是双11,这几年阿里巴巴双11的营业额逐渐增加。这背后更深层次的原因是我们已经将核心系统100%实现在云端。上云后,我们发现AI离不开计算。只有拥有强大的计算能力,我们才能利用人工智能技术来提高效率。双11是一个很好的练兵场。在这样的规模下,如何构建系统,处理数据,快速挖掘数据背后的价值,是我们思考的问题。在整体趋势下,我们可以看到三个因素:一是实时性。双十一只有一天,一定要了解数据,及时反馈给商家。实时性能非常重要。双十一大屏背后的支撑系统就是通过Flink实现实时计算。简单的销售可能没有特别的意义。我们需要实时分析得到更详细的指标,比如用户的购买兴趣、产品品类、供销比、渠道、仓储地点、货源等,我们需要通过实时分析及时反馈给商户、快递公司等,让各方明确双11当天如何调整策略。今年双11,我们每秒可以处理25.5亿条消息,包括买卖消息,快递请求等等,第二个是规模。我们不仅需要实时反馈,还需要在双11结束后向银行和商户进行详细的对账。今年我们只用了一天时间(11月12日)就完成了所有的上报,这是通过弹性实现的的云平台。规模这么大,商家的服务效率也是个问题。过去,人们靠电话和服务员为商家服务。现在在这么大规模的系统下,需要用AI技术来服务商家,用AI来辅助快递。例如,机器人可能会问用户:你在家吗?把包裹放在哪里等等。在大家以往的印象中,AI离生活很远,但是辅助快递是一个非常具体的场景,可以给用户带来更好的体验,包括淘宝首页的个性化推荐。今天,淘宝推荐也有一些动态封面。这背后是我们每天分析2.5亿个视频的结果。淘宝上也有很多促销是用短视频来卖货的。我们分析了2.5亿个视频,最终日均商品分析达到了1.5亿个。我们统计了当天通过视频购买商品的人数,发现平均有效时长为120秒。通过这项新技术可以促进新的场景。第三个是人工智能。这一切的背后都是数据的力量,整个双11都是由AI和数据驱动的。实时性、规模化、AI的互补,极大地提升了双11的效率,计算和处理能力也得到了极大的提升。这就是2684亿销售额背后的技术力量。云上双11的AI能力回归到技术本身。2017年之前,我们的系统比较简单,更多的任务是处理数据和生成报表。一年半前,我们开始加入更多的实时特性,用实时数据来反馈业务决策,这导致了MaxCompute的出现。今天,整个技术背景非常复杂。我们有一些非常好的计算引擎,可以整合全局数据,有统一的源数据管理、任务管理、智能数据开发、数据综合治理能力。毕竟,人工智能和计算实际上是一种共生关系。AI的繁荣依赖于计算能力的积累,所以我们需要一个好的数据处理平台进行分析和提取,很好的服务算法工程师进行创新,比如尝试各种模型,各种构建机器学习的方式,看看能不能提高人工智能的效率和准确性。企业如何在云端构建AI能力?上述场景主要是AI场景。接下来重点介绍这些场景背后的AI技术,主要围绕飞天AI平台展开。上层是PAI和在线推理服务EAS,再分为DSW开发平台、PAIStudio和AutoLearning,基于训练优化引擎和推理优化引擎,解决大规模分布式数据处理问题。另外,我们还有一个在线机器学习系统,可以对用户行为日志进行实时和离线计算,然后提取特征库,生成批流统一样本,进入样本库,最后进行批流统一模型训练。我们为什么要这样做呢?一是因为实时性,传统的搜索是非常不敏感的,我们是在跟踪用户兴趣的变化。如果模型每两周更新一次,它可能会错过几轮热销产品。我们需要使用在线机器学习。实时判断,非常接近深度学习。在非实时状态下,工程师可以非常精细地做特征工程,花更多的时间去理解数据,利用深度学习本身的特性来捕捉数据之间的关系,而不是依赖专家来提取。这就是深度学习的好处。但这需要海量的计算才能完成,在线机器学习系统会及时将双11当天的日志传输到实时计算平台进行采集,然后根据ID聚合数据,通过分析形成样本,最后基于样本、验证和部署进行增量学习,只有这样才能快速更新模型以跟随用户或业务变化。在这个过程中,我们面临的第二个挑战是模型非常庞大,因为它需要“千人脸”,所以需要对稀疏场景进行非常庞大且分布式的训练。目前开源的机器学习框架远不能满足我们的规模需求,我们需要做大量的优化才能在稀疏场景下训练大规模数据。如果你对深度学习有所了解,你应该知道深度学习可以描述非常大的细粒度图。如何对图进行切分,让图的计算和通信能够更好的平衡,是一个需要考虑的问题。通过通信运营商融合和基于通信成本的运营商下推,实现分布式图优化技术。通过高效的内存分配库,如线程库、ShareNothing执行框架;使用备用功能进行通信;异步训练、通信和计算完全重叠;容错、部分检查点、自动缩放、动态嵌入;支持大规模梯度优化器方法实现运算框架的优化,如下图所示:优化后性能提升了七倍。稀疏特征规模从数十亿到数百亿,样本从数百亿到数千亿,并有千亿工人的分布式增量训练。在动态封面层面,我们分析了大量的视频文件。视频比图片更复杂,因为视频涉及的环节很多,提取视频帧需要视频预处理,但不可能提取每一帧。成本太高了。需要提取视频的关键帧,通过图像识别和目标检测来提取。这是一项非常复杂的工作。因此,我们开发了一个视频平台来帮助视频分析和算法工程师解决问题。具体架构如下图所示:在视频中,在线业务其实是很复杂的,有分解,有合成。视频首先被分解,然后被理解和提取,最后合成。通过视频PAI-EAS在线服务平台,算法工程师只需编写简单的Python代码,即可通过接口调用相应的服务,让算法工程师有更多的时间进行创新。除了以上场景,整个平台最重要的是支持算法工程师的海量创新。五年前,阿里的算法模型很有价值,写算法的人不多。随着深度学习的演进,现在越来越多的算法工程师开始构建模型。为了支持这些需求,我们进行了AI自动化,让算法建模同学专注于业务建模本身,系统会配合基础设施(PAI)完成业务模型的高效高性能运行。在深度学习方面,我们分别进行了前端和后端的优化。我们希望通过编译技术和系统技术服务实现图优化、任务切分、分布式调度、数据分片、模型分片,通过系统模型选择我们认为最好的方案执行。这就是我们整个PAI平台的概念。整个PAI-Blade通用推理优化框架分为以下几个部分:通过一系列的改进,我们也取得了一定的优化效果。我们有一个非常大的集群,当集群足够大时,我们可以实现很好的多路复用。通过资源调度和引擎的配合,GPU集群的利用率可以提升30%。另外,我们的很多AI服务都加载了一个在线服务框架,我们称之为PAIEAS。这个框架是云原生的,可以更好的利用云平台本身的规模和可扩展性来支撑双十一海量的AI请求。因为双11期间,不仅业务数据和采购数据在暴涨,AI请求也在暴涨.比如智能客服、菜鸟语音当天的服务量就很大。通过利用云平台的能力,我们可以提供更好的体验。综上所述,这些技术支持阿里巴巴所有BU,支持5000+单任务的分布式训练。有几万台机器,几千个AI服务,日均调用量可达几十万。最后,阿里双11的成长离不开AI技术的成长和数据的爆发。嘉宾介绍:林伟,阿里云智能计算平台事业部研究员,拥有15年大数据和超大规模分布式系统经验。负责阿里巴巴大数据MaxCompute和机器学习PAI平台的总体设计和架构,推动MaxCompute2.0和PAI2。.0,PAI3.0的演变。在加入阿里之前,他是微软大数据Cosmos/Scope的核心成员。在微软研究院从事分布式系统研究,从事分布式NoSQL存储系统PacificA、分布式大规模批处理Scope、调度系统Apollo、流计算等方面的工作。致力于分布式机器学习的StreamScope和ScopeML。在ODSI、NSDI、SOSP、SIGMOD等系统领域顶级会议发表论文十余篇。
