当前位置: 首页 > 科技观察

总结过去三年,麻省理工发布AI加速器综述论文

时间:2023-03-22 10:52:13 科技观察

过去一年,无论是初创公司还是成熟工厂,预测、发布和部署人工智能(AI)和机器的步伐学习(ML)加速器非常慢。但这并非不合理,对于许多发布加速器报告的公司来说,他们花费三到四年时间研究、分析、设计、验证和权衡加速器设计权衡,并构建为加速器编程的技术堆栈。对于那些发布了加速器升级版本的公司来说,虽然他们报告的开发周期较短,但至少还有两到三年的时间。这些加速器的重点仍然是加速深度神经网络(DNN)模型,应用场景从极低功耗的嵌入式语音识别和图像分类到数据中心的大规模模型训练。典型市场和应用领域的竞争仍在继续,这是工业和科技公司从现代传统计算向机器学习解决方案转型的重要一环。AI生态系统汇集了边缘计算、传统高性能计算(HPC)和高性能数据分析(HPDA)的组件,它们必须协同工作才能有效地为决策者、一线人员和分析师赋能。图1显示了此端到端AI解决方案及其组件的架构概览。原始数据首先需要数据正则化,其中数据被融合、聚合、结构化、积累并转化为信息。数据整理步骤生成的信息作为监督或非监督算法(例如神经网络)的输入,这些算法提取模式、填充缺失数据或查找数据集之间的相似性、进行预测并将输入信息转换为可操作的知识。这些可操作的知识将传递给人类,用于人机协作阶段的决策过程。人机协作阶段为用户提供有用且重要的见解,将知识转化为可操作的情报或见解。支撑这个系统的是现代计算系统。摩尔定律趋势结束了,但同时也有很多相关的定律和趋势被提出来,比如德纳尔定律(功率密度)、时钟频率、内核数、每时钟周期指令数、每焦耳指令数(Koomey's法律)。从首次出现在汽车应用、机器人技术和智能手机中的片上系统(SoC)趋势开始,通过为常用内核、方法或功能开发和集成加速器,创新不断取得进展。这些加速器在性能和功能灵活性之间取得了不同的平衡,包括深度学习处理器和加速器的创新爆炸式增长。在阅读了大量相关论文后,本文探讨了这些技术的相对优势,因为它们对于将人工智能应用于具有极端要求(例如尺寸、重量和功率)的嵌入式系统和数据中心尤为重要。本文是对过去三年IEEE-HPEC论文的更新。与过去几年一样,本文继续关注深度神经网络(DNN)和卷积神经网络(CNN)的加速器和处理器,这些计算量非常大。本文重点介绍推理中的加速器和处理器的开发,因为许多AI/ML边缘应用严重依赖推理。本文介绍加速器支持的所有数字精度类型,但对于大多数加速器而言,它们的最佳推理性能是int8或fp16/bf16(IEEE16位浮点数或Google的16位大脑浮点数)。论文链接:https://arxiv.org/pdf/2210.04055.pdf目前已经有很多论文讨论AI加速器。例如,该系列调查的第一篇论文探讨了FPGA在某些AI模型上的峰值性能,而之前的调查对FPGA进行了深入的研究,因此不再包括在本次调查中。这项正在进行的调查工作和文章旨在收集AI加速器的完整列表,包括它们的计算能力、能源效率以及在嵌入式和数据中心应用程序中使用加速器的计算效率。同时,文章主要比较了用于政府和工业传感器和数据处理应用的神经网络加速器。一些往年论文中包含的加速器和处理器被排除在今年的调查之外,因为它们可能已经被同一家公司的新加速器取代,不再维护,或者不再与主题相关。人工智能处理器研究的许多最新进展部分归功于硬件性能的改进,这些改进使计算密集型机器学习算法成为可能,尤其是DNN等网络。本文的调查从公开可用的材料中收集了各种信息,包括各种研究论文、技术期刊、公司发布的基准等等。虽然还有其他方法可以获得公司和初创公司的信息(包括那些一直不活跃的公司和初创公司),但本文在本次调查中忽略了它们,当数据公开时将包括在内。此公开数据的关键指标如下图所示,反映了最新的处理器峰值性能与功率能力(截至2022年7月)。注:图2中虚线框对应下图3,图3为虚线框放大图。图中的x轴表示峰值功率,y轴表示每秒峰值千兆操作数(GOps/s),均采用对数刻度。处理能力的计算精度用不同的几何图形表示,计算精度从int1到int32,从fp16到fp64。显示的精度有两种,左边代表乘法运算的精度,右边代表累加/加法运算的精度(比如fp16.32表示fp16乘法,fp32表示累加/加法)。使用颜色和形状来区分不同类型的系统和峰值功率。蓝色表示单芯片;橙色表示一张牌;绿色表示整个系统(单节点桌面和服务器系统)。本次调查仅限于单主板、单内存系统。图中的空心几何形状是仅推理加速器的最高性能,而实心几何形状代表加速器执行训练和推理的性能。本次调查以过去三年调查数据的散点图开始。在下面的表1中,本文总结了加速器、卡和整个系统的一些重要元数据,包括图2中每个点的标签,其中许多来自去年的调查。表1中的大多数列和条目都精确而清晰。但有两个技术条目可能不是:Dataflow和PIM。数据流式处理器是用于神经网络推理和训练的自定义处理器。由于神经网络训练和推理计算是完全确定性结构的,因此它们非常适合数据流处理,其中计算、内存访问和ALU间通信被显式/静态编程或放置和路由到计算硬件。内存处理器(PIM)加速器将处理元件与内存技术集成在一起。在这些PIM加速器中,有一些基于模拟计算技术,通过就地模拟乘加功能增强闪存电路。有关这项创新技术的更多详细信息,请参阅Mythic和Gyrfalcon加速器。本文根据加速器的预期应用对加速器进行了合理的分类。图1用省略号标出五种加速器,分别对应性能和功耗:极低功耗,用非常小的传感器进行语音处理;嵌入式相机、小型无人机和机器人;驾驶员辅助系统、自动驾驶和自动机器人;数据中心的芯片和卡;数据中心系统。大多数加速器的性能、功能等都没有变化,相关信息可以参考近两年的论文。以下是过去文章中未包含的加速器。荷兰嵌入式系统初创公司Acelera声称,他们生产的嵌入式测试芯片具备数字和模拟设计能力,而这款测试芯片就是测试数字设计能力的范围。他们希望在未来的工作中添加模拟(可能还有闪存)设计元素。MaximIntegrated发布了一款名为MAX78000的片上系统(SoC),适用于超低功耗应用。它包括ARMCPU内核、RISC-VCPU内核和AI加速器。ARM内核用于快速原型设计和代码重用,而RISC-V内核用于优化以实现最低功耗。AI加速器有64个并行处理器,支持1位、2位、4位、8位整数运算。该SoC的最大运行功率为30mW,适用于低延迟、电池供电的应用。Tachyum最近发布了一款名为Prodigy的一体化处理器。Prodigy的每个核心都集成了CPU和GPU的功能。它专为HPC和机器学习应用程序而设计。该芯片拥有128个高性能统一内核,运行频率为5.7GHz。NVIDIA于2022年3月发布了名为Hopper(H100)的下一代GPU。Hopper集成了更多的对称多处理器(SIMD和Tensor核心),50%的显存带宽,SXM夹层卡实例的功率为700W。(PCIe卡功率为450W)在过去的几年中,NVIDIA发布了一系列用于在汽车、机器人和其他嵌入式应用中部署安培架构GPU的系统平台。针对汽车应用,DRIVEAGX平台新增两个系统:DRIVEAGXL2实现45W功率范围内的Level2自动驾驶,DRIVEAGXL5实现800W功率范围内的Level5自动驾驶。JetsonAGXOrin和JetsonNXOrin也使用Ampere架构的GPU用于机器人、工厂自动化等,它们的最大峰值功率分别为60W和25W。Graphcore发布了其第二代加速器芯片CG200,部署在PCIe卡上,峰值功率约为300W。去年,Graphcore还推出了Bow加速器,这是第一款与台积电合作设计的晶圆到晶圆处理器。加速器本身与上面提到的CG200相同,但它与第二个裸片配对,大大改善了整个CG200芯片的功率和时钟分配。这意味着性能提高了40%,每瓦性能提高了16%。2021年6月,谷歌公布了其第四代纯推理TPU4i加速器的细节。将近一年后,谷歌分享了其第四代训练加速器TPUv4的细节。虽然官方细节很少,但他们分享了峰值功率和相关性能数据。与之前的TPU变体一样,TPU4可通过GoogleComputeCloud获得并用于内部操作。接下来是对图2中未显示的加速器的描述,其中针对每个版本发布了一些基准测试结果,但有些缺少峰值性能,有些没有发布峰值功率,如下所示。SambaNova去年发布了部分可重构AI加速器技术的基准测试结果。今年还发布了多项相关技术,并与阿贡国家实验室合作发表了应用论文。不过,SambaNova并未提供任何细节,仅来自公开信息。估计他们的解决方案的峰值性能或功耗。今年5月,英特尔Habana实验室宣布推出第二代Goya推理加速器和Gaudi训练加速器,分别命名为Greco和Gaudi2。两者的性能都比以前的版本好几倍。Greco是75w单宽PCIe卡,而Gaudi2也是650w双宽PCIe卡(可能在PCIe5.0插槽上)。Habana发布了一些比较Gaudi2与NvidiaA100GPU的基准测试,但没有透露这两种加速器的峰值性能数据。Esperanto已经制作了一些演示芯片供三星和其他合作伙伴进行评估。该芯片是一个1000核RISC-V处理器,每个处理器都有一个AI张量加速器。Esperanto发布了一些性能指标,但没有透露峰值功率或峰值性能。在TeslaAIDay上,Tesla介绍了他们定制的Dojo加速器和系统的一些细节。他们的芯片峰值性能为22.6TFFP32,但是没有公布每颗芯片的峰值功耗,或许这些细节会在稍后公布。去年,半人马科技推出了集成AI加速器的x86CPU,拥有4096字节宽的SIMD单元,性能极具竞争力。但Centaur的母公司VIATechnologies将位于美国的处理器工程团队出售给了英特尔,并且似乎已经结束了CNS处理器的开发。一些观察结果和趋势图2中的几个观察结果值得一提,如下所示。Int8仍然是嵌入式、自治和数据中心推理应用程序的默认数字精度。这种精度对于大多数使用有理数的AI/ML应用程序来说已经足够了。还有一些加速器使用fp16或bf16。模型训练使用整数表示。在极低功耗的芯片中,除了用于机器学习的加速器之外,没有发现额外的功能。在超低功耗芯片和嵌入式类别中,通常会发布片上系统(SoC)解决方案,通常包括低功耗CPU内核、音频和视频模数转换器(ADC)、加密引擎、网络接口等。SoC的这些添加不会改变峰值性能指标,但它们确实会对芯片报告的峰值功率产生直接影响,因此在比较它们时这一点很重要。嵌入式部分变化不大,这意味着计算性能和峰值功率足以满足该领域的应用需求。包括德州仪器在内的几家公司在过去几年中发布了人工智能加速器。如前所述,NVIDIA还针对汽车和机器人应用发布了一些性能更好的系统。在数据中心,PCIev5规范被寄予厚望,以突破PCIev4的300W功率限制。最后,不仅高端训练系统发布了令人印象深刻的性能数据,而且这些公司还发布了可将数千张卡片连接在一起的高度可扩展的互连技术。这对于Cerebras、GraphCore、Groq、TeslaDojo和SambaNova等数据流加速器尤其重要,它们被显式/静态编程或放置并路由到计算硬件上。通过这样做,它使这些加速器能够扩展到非常大的模型,如变压器。更多细节请参考原文。