文章 |上周,NVIDIA发布了业界最先进的AI推理平台——NVIDIA TensorRT超大规模推理平台,该平台采用基于突破性NVIDIA图灵架构的NVIDIA Tesla T4 GPU。
以及一整套新型推理软件,这些产品的优化以实现强大、高效的推理,备受业界关注。
这个新的数据中心推理平台为语音、视频、图像和推荐服务带来了预期的推理加速。
随着智能手机、智能音箱、智能相机等智能终端的爆发,以语音交互、人脸识别、图像识别、机器翻译等为代表的AI服务开始大量涌入我们的生活和工作中。
人工智能在推理应用中的作用也在呈爆炸式增长。
大型数据中心每天处理数十亿条语音查询、翻译、图像、视频、推荐和社交媒体交互。
所有这些应用程序的处理需要位于??服务器上的不同类型的神经网络。
所谓推理端是相对于训练端来说的。
目前,构建AI能力通常需要大量的数据来“喂”模型,训练出可用的模型,然后将模型部署到服务器或终端上。
用于推理应用。
作为AI计算领域的领导者,NVIDIA也在不断推动及时适时的努力,为推理侧的AI应用提供低延迟、高性能的算力支持,保证AI服务的体验。
作为国内最大的电商平台和云服务平台,阿里巴巴不仅在AI应用的训练端大量使用GPU,近年来也在GPU上构建了很多推理端的AI能力。
近日,我们与阿里巴巴计算平台事业部机器学习平台PAI团队的高级算法专家杨军进行了深入交流,看看阿里巴巴如何利用GPU为整个AI平台打造超强火力“发电厂” 。
阿里巴巴GPU部署量位居国内前三如果把AI应用比作一列火车,那么服务器等计算平台就是提供能源的“发电厂”,算法模型就是控制列车前进的“大脑” ,而模型框架和部署平台就是“赛道”。
只有这三者协调配合,AI应用才能真正运行起来。
杨军的计算平台事业部扮演着阿里巴巴AI“发电厂”的角色。
他们构建通用计算平台,为不同的算法模型提供不同的算力,满足各种业务的发展。
智喜喜了解到,阿里巴巴的计算平台事业部原本隶属于阿里云。
后来,出于对这项业务的重视,想要积累更多的基础设施,阿里巴巴将其从阿里云中分离出来,成为一个独立的业务部门。
阿里巴巴计算平台的能力不仅输出给阿里巴巴内部,还向外部云客户提供服务。
我们了解到,计算平台的能力首先服务于阿里巴巴内部业务,比如搜索、推荐、淘宝、安全部门、广告等业务;另一方面,他们也会将产品导出到阿里云上长期使用。
为尾部用户打造AI能力。
如果把阿里巴巴的计算平台比作“发电厂”,那么GPU就是支撑AI应用训练和推理的高性能“燃料”。
阿里巴巴从今年开始就开始使用 NVIDIA GPU 来构建计算平台。
杨军表示,虽然建设的起点并不算太早,但阿里巴巴对GPU非常重视,投入力度也很大。
目前,阿里巴巴GPU采购总量位居全国前三。
目前,阿里巴巴使用了多个系列的NVIDIA GPU产品。
推理方面,阿里巴巴主要使用Tesla P、Tesla P4等GPU进行AI推理任务。
由于阿里巴巴的计算平台面对不同的业务类型有不同的算法模型,因此它也必须具有包容性和灵活性,能够根据不同的业务特征匹配所需的计算能力。
这意味着平台必须走通用化的道路,阿里巴巴正在尝试通过编译器优化来解决这个问题。
杨军还表示,计算平台的部署主要关注三个方面:一是希望客户的业务能够跑得足够快,更快地完成训练和推理任务;第二,客户可以更高效地利用资源,帮助客户节省资源;三是透明化、智能化。
客户只需提交模型,剩下的由平台完成。
客户可以更加关注业务层面。
阿里巴巴的多项业务的用户体验越来越好,产品创新的速度也越来越快。
这背后有杨军的GPU计算平台的帮助。
在GPU的支持下,阿里巴巴的计算平台支持阿里巴巴的众多业务AI推理应用,例如安全内容审核、机器翻译等,可以得到极大的加速。
编译器优化满足不同业务的AI推理需求。
在阿里巴巴通用算力平台中,面对阿里巴巴多元化的业务需求,通过编译器优化的方式来满足不同业务的算力需求。
图像识别、语音识别、机器翻译等不同的任务,算力获取的细节有所不同。
阿里巴巴利用编译器优化方法,将训练和推理任务转化为编译优化任务,将高级语言描述转化为底层可执行代码的过程。
杨军还介绍了他们在编译器优化方面的一些做法。
可以根据设备划分和业务场景划分优化不同的算法模型。
例如,云端和终端的要求不同。
对于终端上的搜索推荐,时延要求非常严格,需要及时响应。
另外,同一模型的不同业务场景有不同的要求。
例如,对于机器翻译、照片翻译等交互式翻译,需要低延迟;对于批量翻译来说,时效性要求不是那么强。
阿里巴巴的计算平台可以根据业务本身的需求进行优化。
杨军举了图像识别的例子。
他们设计了一个名为 PAI Blade 的离线优化器。
输入客户的型号和一些关心的选项。
优化器会对模型进行分析,找出哪些模型适合与 TensorRT(NVIDIA 推出的产品)一起使用。
神经网络推理引擎)执行,哪些适合替换为自写的推理引擎来执行,并通过不断迭代调优来保证业务应用的性能满足预期。
“通过编译和优化技术,推理效果会提升三倍左右。
以某业务为例,大约可以节省一百到两百张NVIDIA Tesla P卡。
一张卡要几万元,这相当于节省成本非常高。
”杨军笑着说道,在使用GPU搭建通用计算平台的过程中,如何保证模型的快速迭代?具体来说,他们一般需要先走进业务,做一些手动优化,看看效果;然后走出业务,发现不同模型之间的共性,做一些共性的工作;达到之后到了一定阶段,工作人员还需要回归业务,看看模型效果是否有效。
他说,“通过这种方法,我们不断迭代模型,让解决方案变得更加通用,同时密切关注客户业务。
”需要。
”与NVIDIA合作推动推理端的AI优化??,阿里巴巴如何将GPU本身提供的计算能力充分释放到通用计算平台上?杨军表示,构建平台首先要考虑的是通用性。
就业务特性而言,不同的场景利用率不同,有些业务与GPU天然不兼容,这一方面需要内部尽快解决并尽可能优化;以及下一代产品中更全面的解决方案,杨军提到,“NVIDIA的芯片发展非常快,但需要足够好的GPU优化团队。
GPU的使用是有门槛的,不懂的用户很难将其使用到极致。
”目前阿里巴巴也在与NVIDIA合作优化AI推理端。
杨军透露在模型的推理优化上,TensorRT可能并不完全适用于一些特定的场景,比如模型压缩部分是自己完成的,完成后也可以享受到。
TensorRT 效果的优点使它们彼此兼容。
针对推理侧AI需求的快速增长,杨军认为,阿里巴巴未来需要从三个方面加强计算平台的部署:一是继续在软件层面推广通用优化服务,使用通用优化服务。
编译优化方法。
这件事;其次,通过系统与模型相结合的方法进行优化,打通系统与模型之间的边界,看到更广阔的优化空间;第三,不断探索硬件的边界,更多地与NVIDIA一起通过产品迭代,将一些功能实现在硬件层。
结论:GPU推理端应用将迎来大爆发。
我们刚刚跨过AI时代的门槛。
可以预见,随着AI应用的爆发,推理端对AI的需求也将迎来大爆发。
目前,在CPU、GPU、FPGA等多种AI推理侧算力解决方案中,GPU以其通用性、低延迟、高性能逐渐受到各大AI公司的追捧,在人工智能领域也发挥着越来越重要的作用。
推理方。
角色。
行业也需要像NVIDIA这样能够快速响应市场变化的企业,不断推出新的GPU产品以满足市场需求,并与应用程序合作,充分释放GPU针对应用场景的能力,赋能更多行业。