当前位置: 首页 > 科技观察

AI的下半场怎么走,本云知道

时间:2023-03-12 22:16:36 科技观察

说的是今年AI技术的落地。AI真的落地了吗?可能要说出真实的数字。IDC今年7月发布的报告显示,2018-2024年,中国AI云服务市场年复合增长率将达到93.6%。当然,高增速并不一定代表行业真正繁荣,行业的结构性变化更能说明天平向什么方向倾斜。阿里云最近有一组数据值得玩味:四年前,云上的训练任务占比超过80%;但是现在,推理任务占据了一半以上的计算能力。阿里云方面透露,这主要得益于过去四年AI行业悄然发生的变化:云端推理的需求增长远快于训练需求。超过一半的比例表明推理将是未来更主流的云端AI计算需求,也表明AI产业已经从创业和研发创业转向真正落地。你为什么这么说?阿里云异构计算研发总监龙鑫解释说,训练是一个更后端的研发阶段。推理更多的是将成熟的产品推向市场进行大规模应用。从这个角度来看,算力是在训练还是在推理,其实可以判断这个产品在AI方面的技术是否已经开始大规模落地。阿里云还透露了一组数字。云GPU刚推出时,只有少数互联网公司和人工智能科技创业公司租用算力来验证其商业模式和商业探索;目前AI用户已覆盖智能制造、医疗、教育等数十个行业。比如今年的疫情,带动了在线教育等行业的快速增长。阿里云透露,在线教育是过去一年异构计算需求增长最快的行业,增幅接近200%。这也反映出AI应用在这个行业的快速落地。“其实AI已经进入下半场,推理服务的多样化也带来了异构场景和设备的多样化,云??游戏和5G是现在非常热门的赛道。”结构计算也在支持更多新兴的赛道。AI技术已经到了少数人和少数公司的“自我放纵”,开始向传统行业全面开花。总而言之,人工智能已经从重训练的研发阶段,走向了训练与推理并举的落地阶段,应用也越来越广泛。从算法到“算法+算力”,以深度学习为代表的人工智能技术发展迅猛,对算力的需求也在快速增长。OpenAI的年度报告显示,从AlexNet到AlphaGoZero短短六年时间,最先进的AI模型的计算能力需求增长了30万倍。算法是提升AI技术的核心,但要快速实现AI,最“简单粗暴”的方式就是叠加算力。今年出现的超级自然语言模型GPT-3就是一个典型的例子。另一方面,在更偏向于研发的训练阶段,对算力的需求是有天花板的,这与具体的业务规模没有直接关系。如今,AI产品的推出,意味着随着前端用户规模的扩大,推理业务模型对应的算力需求将呈线性甚至爆发式增长。比如,阿里云曾在几天内为一款火爆的AI产品在云端“爆出”数万个GPU,俘获了涌入的用户。“巧妇难为无米之炊”,拥有算力资源的AI基础设施成为AI从概念到落地的重要支撑。人工智能逐渐从以单一算法为核心,演化为以算法和算力为核心的双核。云无疑是最便捷、最灵活的获取算力的方式。通过云端,企业可以随时获得充足的云端AI算力。作为云计算的基础设施提供商,堆叠硬件是满足行业发展的必经之路,但提供AI算力并不等同于简单的堆叠硬件。如果没有全面的软硬件技术,只会得到1+1<2的效果。如何调度这些资源,解决用户使用时的性能损失,是云计算厂商必须考虑的问题。云异构计算的三个阶段这要从云上AI基础设施的发展阶段说起。云端异构计算是AI最高效的计算方式,其发展可分为三个阶段:第一阶段是从0到1的异构计算需求。2013年,AlexNet依靠GPU实现了80%的准确率,展示了GPU在提供AI算力方面的能力,为业界开辟了一条新路径。淘宝拍力淘、新浪微博等,已经开始尝试使用GPU开发机器学习产品。2016年,阿里云迈出第一步:推出异构计算业务,主要服务于第一批寻求AI创新的客户需求。现阶段主要解决企业从有到无发展异构算力的需求。第二阶段是规模化。2016年AlphaGo大放异彩后,深度学习等AI技术开始从实验室走向工业界。随着一大批互联网企业开始大力投入人工智能算法的研发,AI算力瓶颈日益凸显。大量模型训练的需求和日益增长的大计算能力需求推动了大规模、高弹性、高性能的云计算基础设施的实施。阿里云也开始在云端大规模部署异构算力。短短三年时间,阿里云已经拥有超大规模的云端异构计算集群,每秒可支持100亿次异构运算,相当于一秒理解5.3亿多张图片,翻译4000次.10,000个句子和92,000小时的语音识别。前文提到,2020年,人工智能产业的拐点已经到来,人工智能真正从研发、创业走向实践。这也推动异构计算产品进入第三阶段。第三阶段的特点是精细化和多样化。当AI从研发走向落地,训练场景将面临更加复杂多样的业务。对于企业客户,对云计算的需求将集中在降低推理成本和超大算力的极速部署上。更多样化。不难看出,这三个阶段的变化是技术进步和产业发展共同推动的结果。第二阶段,面向大规模计算的基础设施建设可以说是所有云厂商的必由之路,也依然是众多厂商竞争的焦点。但在基础设施之上,客户如何进一步快速调用资源,在AI落地过程中进一步降本增效?作为中国云计算市场占有率最高的云服务商,阿里云率先迈出了这一步,给出的答案是——软硬件一体化,这已成为领先云服务商的共识2017年,为了解决通过虚拟机建云过程中虚拟化带来的性能损耗问题,阿里云于2017年9月推出了第一代神龙架构,在整个行业内首次结合软硬件。该设计方法实现了性能零损失。在大洋彼岸,AWS也在2017年底推出了类似的产品AWSNitro架构。在此基础上,阿里云异构计算现在为垂直行业提供软件工具,让云端的资源更高效、更高效。更容易使用。比如面向人工智能行业的神龙AI加速引擎(AIACC)。在大规模深度学习场景中,大规模的GPU资源不仅导致运维成本高昂,而且随着机器数量的增加,不同机器的GPU之间的协作难度也会增加,导致利用率下降单个GPU卡。AIACC可以通过通信和带宽的深度优化,提高资源协作的效率和利用率。在AIACC的加持下,今年3月,阿里云在斯坦福大学DAWNBenchImageNet四大榜单中获得全球第一。根据已经落地的实际案例,AIACC可以帮助客户在云端的训练场景中实现2倍到14倍的性能提升;在推理场景下,性能提升2倍到6倍。AI芯片领域的独角兽地平线与阿里云AIACC团队紧密合作,将基于阿里云异构计算的分布式训练性能提升4倍,显着提升地平线算法研发效率,大大提高了地平线算法研发效率。降低成本。在阿里巴巴内部,以阿里云IoT的图像分类业务为例。AIACC团队与物联网智能业务研发团队合作,将大规模图像分类分布式训练性能提升5倍。阿里独有的另一款异构软件产品是分片cGPU容器技术,让客户通过容器对底层GPU资源进行调度,更细粒度地调度和使用GPU,提高GPU资源利用率,实现降本增效的目标的。阿里云异构计算产品负责人潘跃进一步阐述了量子比特“软硬件一体化”的必要性:单纯从算力的角度来看,硬件相当于修路用的水泥和石头。但只是基本的堆叠显然不足以解决问题。硬件资源基于底层基础设施,虚拟化等技术需要以软件产品的形式进行迭代,充分发挥底层硬件的能力,为客户释放相应的技术红利。算力池化除了软硬件融合,阿里云异构计算产品展现的另一个发展趋势是算力池化,为算力带来更灵活的调度能力。一直以来,用户在云端选择GPU算力时,都会受到规格配比的限制,比如内存和GPU只能有一定的配比。然而,每个AI推理模型所需的资源比例却大不相同。阿里云异构计算今年推出了弹性加速计算实例EAIS。通过软件池化,在国内率先实现GPU、FPGA、NPU等异构加速器与CPU/内存解耦的云厂商。EAIS为客户提供异构算力池。用户可以为任意一台阿里云ECS服务器匹配所需数量的GPU资源,根据不同的应用需求灵活优化CPU/内存与GPU的配比,匹配合适的资源组合,在提升AI推理效率的同时大大降低成本。全面布局AI下半场,其基础设施需要更加丰富多样。龙鑫表示,推理面临的业务场景非常复杂,涉及的技术可能不仅仅是AI。C端用户使用的一个功能,可能集成了音视频编解码、深度学习等多种技术。作为底层基础设施,异构计算也需要覆盖多样化的需求。阿里云的异构计算虽然起源于AI,但面对的不仅仅是AI。阿里云异构计算产品的经典案例并不仅限于AI领域。阿里云异构GPU/FPGA服务器主要支持天猫双十一直播的视频实时转码,服务于4k、1080p、720p等分辨率的转码。业界最大的单业务FPGA计算集群,为淘宝提供超过百万QPS的图片转码处理能力。FPGA云服务器今年首次承担双十一淘宝图片流量100%,预计节省数亿元计算成本。...下一步云异构计算回顾国内云异构计算产品的发展历程,阿里云无疑是最早的云服务提供商。在阿里巴巴集团研究员、阿里云弹性计算负责人张先涛看来,阿里巴巴拥有丰富的内部业务,而这些内部业务为阿里云的技术输出提供了最直观的行业洞察。反过来,阿里云的技术积累反哺了集团的业务。这形成了良性闭环,使阿里云能够坚定地在云计算业务上进行前瞻性布局。那么,第三阶段之后,云异构计算将何去何从,阿里云如何判断?阿里云异构计算产品负责人潘跃表示,从产品的角度来看,未来云异构计算的发展一定是一个生态的过程。一方面,阿里云等底层基础设施由行业ISV(IndependentSoftwareVendors)和解决方案公司整合,使能AI等领域的创新实践。另一方面是加强与英伟达等加速器厂商的合作,进一步丰富加速器的硬件生态。从技术角度来看,阿里云异构计算研发总监龙昕表示,未来单一的加速器将无法满足AI、视频编解码等多个领域的业务需求,加速器硬件集成的趋势已经出现。未来,异构计算可能会有这样一种新的技术变革:通过软件池解耦和硬件池解耦,将多个加速器集成在一起,满足AI等行业更广泛的业务实施阶段。加速需求。这也将是阿里云下一阶段的重点探索方向。而且,随着5G的部署和视频等视觉计算需求的增加,云异构计算不仅在AI领域,还将在视??频、云游戏等更多行业发挥更重要的作用。