当前位置: 首页 > 科技观察

全球十大AI训练芯片盘点

时间:2023-03-13 19:45:04 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。哪个AI芯片更强?现在,有一个直接的比较和参考。英国资深芯片工程师JamesW.Hanlon盘点了目前排名前十的AI训练芯片。还给出了各项指标的横向对比,这也是AI训练芯片的最新讨论和整理。其中,华为升腾910是中国芯片厂商唯一选择的芯片,其性能也在本次对比中有所体现。△*代表推测,?代表单片机数据。CerebrasWafer-ScaleEngine芯片于今年8月正式推出,命名为“WaferLevelEngine”(CerebrasWaferScaleEngine,简称WSE)。它最大的特点是将逻辑运算、通信和存储集成在一个硅芯片上,是专用于深度学习的芯片。一举创下四项世界纪录:晶体管数量最多的计算芯片:共有1.2万亿个晶体管。三星虽然打造了拥有2万亿个晶体管的芯片,但用于存储的却是eUFS。芯片面积最大:尺寸约为20厘米×23厘米,总面积为46225平方毫米。最大的片上缓存:包含18GB的??片上SRAM内存。最多计算核心:410,592个处理核心能够拥有如此耀眼的数据,直接得益于84颗高速互联芯片的集成,FP32上单芯片的峰值性能为40TeraFLOPs,芯片功率高达15kW,可与AI集群相媲美。片上缓存也达到了18GB,是GPU缓存的3000倍;它可以提供每秒9PB的内存带宽,比GPU快10000倍。晶圆级集成并不是一个新想法,但与产量、功率传输和热膨胀相关的问题使其难以商业化。在这些方面,Cerebras给出了相应的解决方案:为解决缺陷导致良品率低的问题,Cerebras在设计芯片时考虑了1~1.5%的冗余,并增加了额外的核心。当磁芯出现问题时,屏蔽使用,杂质不会导致整个芯片报废。Cerebras与台积电合作发明新技术来处理具有数万亿个晶体管的芯片的蚀刻和通信问题。芯片上方安装了一块“散热板”,利用多根垂直安装的水管对芯片进行直接冷却。Cerebras由SeanLie(首席硬件架构师)、AndrewFeldman(CEO)等人于2016年创立。后者创立了微服务器公司SeaMicro,该公司以3.34亿美元的价格卖给了AMD。该公司在加州拥有194名员工,其中包括173名工程师,迄今为止已从Benchmark等风险投资公司筹集了1.12亿美元的资金。延伸阅读:史上最大AI芯片诞生:462平方厘米,40万个核心,1.2万亿个晶体管,创下4项世界纪录谷歌TPU(v1、v2、v3)谷歌TPU系列芯片于2016年正式发布,第一代chipsTPUv1仅用于推理,仅支持整数运算。通过在PCIe-3之间发送指令来执行矩阵乘法和应用激活函数,这为主机CPU提供了加速,从而节省了大量的设计和验证时间。其主要数据为:芯片面积331平方毫米,28nm制程频率700MHz,功耗28-40W片上存储28MBSRAM:24MB用于激活,4MB用于累加器芯片面积比:35%用于内存,24%用于存储用于矩阵乘法单元,其余41%的区域用于逻辑。256x256x8b收缩矩阵乘法单元(64KMACs/周期)Int8和INT16算法(峰值分别为92和23TOPs/s)IO数据:8GBDDR3-2133DRAM可通过两个接口访问,速度为34GB/sPCIe-3x16(14GBps)2017年5月,谷歌TPUv2发布,提升了TPUv1的浮点计算能力,并增强了其内存容量、带宽和HBM集成内存,不仅可以用于推理,但也用于培训。单芯片数据如下:20nm工艺,功耗200-250W(预估)BFloat16上性能为45TFLOPs,同样支持FP32。集成标量和矩阵单元的4颗芯片后,峰值性能为180TFLOPs单核数据:128x128x32b收缩矩阵单元(MXU)8GB专用HBM,访问带宽300GBpsBFloat16上的最大吞吐量为22.5TFLOPsIO数据:16GbHBM集成内存,600GBps带宽(估计)PCIe-3x8(8GBps)GoogleTPUv2发布一年后,Google发布了新版本的芯片——TPUv3。但是,关于TPUv3的细节很少。它很可能只是对TPUv2的逐步修改,将性能提高一倍,并增加HBM2内存以将容量和带宽提高一倍。其单芯片数据如下:16nm或12nm工艺,功耗预估200WBFloat16性能为105TFLOPs,可能是MXU的2~4倍每个MXU可接入8GB专用内存集成4颗芯片后,峰值性能420TFLOPsIO数据:32GBHBM2集成显存,带宽1200GBps(估计)PCIe-3x8(8GBps)(估计)延伸阅读:想了解TPU3.0?JeffDean推荐观看此视频。GraphcoreIPUGraphcore成立于2016年,不仅得到了资本和行业巨头的青睐,也得到了行业领导者的认可。2018年12月,宣布完成2亿美元D轮融资,估值17亿美元。投资方包括宝马、微软等行业巨头,以及知名风险投资公司Sofina、Atomico。AI巨头Hinton和DeepMind创始人Hassabis直接表达了他们的赞美之情。该公司的明星产品是GraphcoreIPU,其架构是高度并行的,具有大量内存很少的简单处理器,通过高带宽“开关”互连连接在一起。其架构在庞大的同步并行(BSP)模型下运行,其中程序执行遵循一系列计算和交换阶段。同步用于确保所有进程都准备好开始交换。BSP模型是一种强大的消除并发风险的编程抽象,BSP的实现使得计算和交换阶段能够充分利用芯片的能量,从而更好地控制功耗。可以通过连接10个IPU间链路来构建更大的IPU芯片系统。其核心数据如下:16nm工艺,236亿个晶体管,芯片面积约800平方毫米,功耗150W,PCIe卡为300W1216处理器,FP32累加情况下,FP16算法峰值达到125TFLOPs在处理器内核之间分配300MB的片上内存,提供45TBps的总访问带宽所有模型状态都保存在芯片上,没有直接连接到DRAMIO数据:2xPCIe-4主机传输链路10x卡到卡IPU链路共计384GBps传输带宽单核数据:混合精度浮点随机算法,最多可运行6个线程成立于2016年,是一家以色列AI芯片公司。2018年11月,完成7500万美元B轮融资,募资总额约1.2亿美元。今年6月推出的Gaudi芯片直接与Nvidia的V100竞争。它的整体设计也与GPU有相似之处,尤其是更多的SIMD并行性和HBM2内存。该芯片集成了10个100G以太网链路,支持远程直接内存访问(RDMA)。与Nvidia的NVLink或OpenCAPI相比,这种数据传输能力允许使用商用网络设备构建大型系统。其核心数据如下:台积电16nm工艺(CoWoS工艺),芯片尺寸约500平方毫米异构架构:GEMM运算引擎,8个张量处理核心(TPC)SRAM内存共享PCIe卡功耗200W,夹层卡未知300W片上存储器的TPC核心数据:VLIWSIMD并行性和本地SRAM存储器支持混合精度运算:FP32、BF16和整数格式运算(INT32、INT16、INT8、UINT32、UINT8)随机数生成、超越函数:Sigmoid、Tanh、GeLUIO数据:4x提供32GB的HBM2-2000DRAM堆栈,整体高达1TBps片上集成10x100GbE接口,支持RDMAoverConvergedEthernet(RoCEv2)PCIe-4x16主机接口HuaweiAscend910HuaweiAscend910同样直接对标英伟达V100的910于今年8月正式商用,号称是业界算力最强的AI训练芯片。专注于深度学习训练场景,主要客户为AI数据科学家和工程师。其核心数据为:7nm+EUV工艺,456平方毫米集成4个96平方毫米HBM2堆栈和NimbusIO处理器芯片32达芬奇核心FP16性能峰值256TFLOPs(32x4096x2),是INT832MBOn-chipSRAM的两倍(L2缓存)功耗350W互连和IO数据:核心在6x42d网状分组交换网络中互连,每个核心提供128GBps双向带宽4TBpsL2缓存访问1.2TBpsHBM2接口输入带宽3x30GBps片上IO2x25GBpsRoCE网络接口单达芬奇内核数据:3D16x16x16矩阵乘法单元,提供4,096个FP16MAC和8,192个INT8MAC,用于FP32(x64)、FP16(x128)和INT8(x256)的2,048位SIMD矢量运算支持标量运算拓展阅读:华为最强商用AI芯片:是英伟达V100的2倍!开源AI框架,对标TensorFlow和PyTorchIntelNNP-T这是继XeonPhi之后,英特尔再次入局AI训练芯片。历时4年收购4家初创公司,耗资5亿多美元。它于今年8月发布。神经网络训练处理器NNP-T中的“T”指的是Train,表示这颗芯片是用于AI推理的,处理器代号为SpringCrest。NNP-T将由英特尔的竞争对手台积电使用16nmFF+工艺制造。NNP-T拥有270亿个16nm晶体管,硅片面积680平方毫米,60mmx60mm2.5D封装,24个张量处理器网格。核心频率最高可达1.1GHz,60MB片上内存,4条8GBHBM2-2000内存,采用x16PCIe4接口,TDP为150~250W。每个张量处理单元都有一个微控制器指导操作,这些操作是数学协处理器,可以使用自定义微控制器指令进行扩展。NNP-T支持三大主流机器学习框架:TensorFlow、PyTorch、PaddlePaddle,还支持C++深度学习软件库和编译器nGraph。算力方面,该芯片最高可以达到每秒119万亿次运算(119TOPS),但Intel并未透露是INT8还是INT4上的算力。作为对比,NVIDIATeslaT4在INT8上的计算能力为130TOPS,在INT4上为260TOPS。延伸阅读:英特尔首款AI芯片终于发布:训练推理两用。耗时4年,斥资5亿美元购买了4家公司的NVIDIAVolta架构芯片。NVIDIAVolta于2017年5月发布,并引入了Pascal架构的张量核心。、HBM2和NVLink2.0。NvidiaV100芯片是第一款基于这种架构的GPU芯片。其核心数据为:台积电12nmFFN工艺,211亿个晶体管,面积815平方毫米,功耗300W,6MB二级缓存,84个SM,每个包含:64个FP32CUDA核心,32个FP64CUDA核心和8个张量核心(5376个FP32核心、2688个FP64核心、672个TC)。单个TensorCore每个时钟执行64个FMA操作(总共128FLOPS),每个SM有8个这样的内核,每个SM每个时钟1024FLOPS。相比之下,即使使用纯FP16运算,SM中的标准CUDA内核每个时钟也只能产生256FLOPS。每个SM有128KBL1数据高速缓存/共享内存和四个16K32位寄存器。IO数据:32GBHBM2DRAM,900GBps带宽300GBpsNVLink2.0NVIDIATuring架构芯片Turing架构是Volta架构的升级版,2018年9月发布,但CUDA和TensorCore较少。因此,它体积??更小,功率更低。除了机器学习任务外,它还设计用于执行实时光线追踪。其核心数据为:台积电12nmFFN工艺,面积754平方米,186亿个晶体管,260W功耗,72个SM,每个含:64个FP32核,64个INT32核,8个张量核(4608个FP32核,4608个INT32内核和576个TC)升压时钟的峰值性能:FP32上为16.3TFLOP,FP16上为130.5TFLOP,INT8上为261TFLOP,INT4上为522TFLOP6MB二级缓存和256KBSM寄存器文件IO数据之间的1455MHz参考时钟:12x32位GDDR6内存,提供672GBps聚合带宽2xNVLinkx8链路,每个链路提供高达26GBps的双向速度参考来源:https://www.jameswhanlon.com/new-chips-for-machine-intelligence。网页格式