当前位置: 首页 > 科技观察

英伟达新核弹GPU:4nm工艺800亿晶体管,全新Hopper架构太炸了

时间:2023-03-18 16:36:31 科技观察

本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处.他来了,他来了,老黄拿着英伟达最新一代的GPU来了。之前大家都猜错了5nm,老黄直接上了台积电的4nm制程,真是让人大跌眼镜。新卡命名为H100,采用全新的Hopper架构,直接集成了800亿个晶体管,比上一代A100多了260亿个。核心数量飙升至前所未有的16896,是上一代A100卡的2.5倍。浮点计算和张量核心计算能力也提升了至少3倍。例如,FP32已经达到每秒60万亿次运算。值得注意的是,H100面向AI计算,搭载了Transformer优化引擎,让大模型的训练速度直接翻了6倍。(也算是知晓威震天-图灵背后的秘密了5300亿个参数。)作为性能爆发的新GPU,H100会像其前辈V100、A100一样成为AI从业者的大宝贝也就不足为奇了。但不得不提的是,它的功耗也出现了爆发,达到了前所未有的700W,重回核弹级别。关于自研的GraceCPU,发布会也公布了更多细节。没想到,老黄从库克那里得知,1+1=2,将两个CPU“粘合”在一起,形成了一个CPU超级芯片——宏力CPUSuperchip。GraceCPU采用最新的Armv9架构。两块一共144个核心,内存带宽1TB/s,比苹果最新的M1Ultra的800GB/s还要高一点。基于全新的CPU和GPU基础硬件,本次发布会还带来了下一代企业级AI基础架构DXGH100,以及全球最快的AI超算Eos。当然,英伟达作为Metaverse真正的先行者,离不开Omniverse的新进展。让我们详细看一下。首发Hopper架构GPU,性能暴涨作为上一代GPU架构A100(安培架构)的继任者,搭载全新Hopper架构的H100究竟有多快?话不多说,先说参数:老黄可以说是花了不少钱。首先,他直接采用了台积电的4nm工艺,一口气集成了800亿个晶体管。要知道上一代A100只是7nm架构。在本次发布会之前,外界有不少声音猜测老黄会采用5nm工艺,结果一出就给大家带来了不小的惊喜。最可怕的是,CUDA核心数飙升至16896个,是A100的近2.5倍。(要知道从V100到A100,核心只是增加了一点点)这次,我感觉不到老黄刀法准确了。看INT8/FP16/TF32/FP64的浮点运算和张量运算,性能基本提升了3倍以上。相比之下,前两代的架构升级也显得微不足道。这也让H100的热功耗(TDP)直接达到了前所未有的700w,英伟达的“核弹工厂”名副其实(手动狗头)。话又说回来,这次H100也是首款支持PCle5.0和HBM3的GPU,数据处理速度进一步飙升——显存带宽达到了3TB/s。这是什么概念?老黄在发布会上神秘一笑:我手头只要20台H100,全球互联网流量都有。整体参数细节与上一代A100和V100相比如何就知道了:△图源@anandtech著名女计算机科学家GraceHopper的名字,Nvidia也用它来命名他们的超级芯片。GraceHopper发明了世界上第一个编译器和COBOL语言,被誉为“计算机软件工程第一夫人”。只用了一天的时间就训练出了一个拥有3950亿个参数的大型模型。当然,Hopper的新特性远不止体现在参数上。这一次,老黄在发布会上首次专门提到了搭载Hopper的Transformer发动机。嗯,专为Transformer而构建,允许这些模型以相同的精度和6倍更好的性能进行训练,这意味着训练时间从几周缩短到几天。如何表现?现在无论是训练1750亿参数的GPT-3(19小时)还是3950亿参数的大型Transformer模型(21小时),H100都可以将训练时间从一周缩短到一天,速度提升了最多9次。推理性能也得到了很大的提升。像英伟达推出的5300亿威震天机型,在H100上的推理吞吐量比A100高出30倍,响应延迟降低到1秒,可以说是完美hold住了。不得不说,这波英伟达确实闯入了Transformer阵营。在此之前,英伟达的一系列GPU优化设计,基本都是针对卷积架构进行的,差点在额头上印上“我爱卷积”四个字。怪变形金刚最近太火了。(手动狗头)当然,H100的亮点还不止于此。与它和一系列Nvidia芯片一起,NVIDIA将推出NVIDIANVLink第四代互连技术。也就是说,芯片堆叠的效率更高,I/O带宽扩展到900GB/s。这一次,老黄还着重强调了GPU的安全性,包括实例之间的隔离保护,以及新GPU的机密计算功能。当然,数学计算能力也有所提高。此次,H100上新增的DPX指令可以加速动态规划,在路径优化、基因组学等一系列动态规划算法中速度提升7倍。据老黄透露,H100将于今年第三季度上市,网友调侃“估计不会便宜”。目前H100有两个版本可供选择:一个是功率高达700W的SXM,用于高性能服务器;另一个适用于更主流的服务器PCIe,功耗比上一代A100的300W多了50W。4608块H100,打造全球最快的AI超级计算机H100已经出炉,老黄自然不会放过任何一个打造超级计算机的机会。基于H100的最新DGXH100计算系统也像上一代“烤箱”一样配备了8个GPU。不同的是,DGXH100系统在FP8精度下实现了32petaflops的AI性能,比上一代DGXA100系统提高了6倍。GPU之间的连接速度也变得更快,900GB/s的速度接近上一代的1.5倍。最重要的是,这次英伟达还在DGXH100的基础上打造了一台Eos超算,一举成为AI超算界TOP1性能。单单18.4Exaflops的AI运算性能就比日本的“富岳超级计算机”还要好。》(Fugaku)超级计算机快了4倍。这台超级计算机配备了576个DGXH100系统,直接使用了4608个H100。即便是传统的科学计算,计算能力也能达到275Petaflops(富岳是442Petaflops),而且是跻身超级计算机前5没问题“组装”CPU,跑进TOP1这次GTC大会,老黄还是“提了两句”超级服务器芯片Grace,去年4月份的GTC大会上就亮相了。当时,老黄表示:预计2023年开始供货,反正今年是不可能见面了。不过,宏力的表现还是值得一提的,“进步惊人”。用在了两款超级芯片上:GraceHopper超级芯片,单个MCM,由一个GraceCPU和一个Hopper架构的GPU组成。一款是GraceCPU超级芯片,由两颗GraceCPU组成,通过NVIDIANVLink-C2C技术互联,包含144个Arm核心,内存带宽高达1TB/s——带宽翻倍的同时,能耗”只要“500w。很难不让人想起苹果刚刚发布的M1Ultra。看来,芯片间互连技术的进步,让“组装”成为了芯片行业的一大趋势。宏力超级芯片在SPECrate?2017_int_base基准测试中的模拟性能达到了740分,是目前搭载DGXA100的CPU的1.5倍(460分)。Grace超级芯片可以运行在所有NVIDIA计算平台上。既可以作为独立的纯CPU系统使用,也可以作为GPU加速服务器使用。它采用NVLink-C2C技术,基于Hopper架构搭载一到八个GPU。(嗯,话一说完,老黄的芯片就堆起来了。)值得一提的是,Nvidia已经对第三方定制芯片开放了NVLink-C2C。它是一种超快的芯片到裸片、裸片到裸片互连技术,可实现定制裸片与NVIDIAGPU、CPU、DPU、NIC和SOC之间的一致互连。或许,任天堂的新掌机还能期待一波?甚至工业也必须在元宇宙中进行。当然,除了以上内容,英伟达此次还透露了很多与工业应用相关的案例。无论是自动驾驶还是包括虚拟工厂在内的数字孪生,都离不开计算机渲染和仿真技术。英伟达认为,业界还可以通过在虚拟环境中模拟来增加AI训练数据量,换句话说,就是“在Metaverse中进行大规模训练”。比如让AI智能驾驶在元宇宙中“练习”,利用模拟数据创造一个半真实的环境,加入一些可能会导致意外故障的环境模拟:再比如,在真实环境中创造等比例、材质、等参数完全相同的“数字化工厂”,建设前应提前试运行,及时排查可能存在问题的环境。除了数字孪生,数字资产的生产也是元界建设初期需要考虑的部分。对此,英伟达推出了OmniverseCloud,可以随时随地在云端进行协作。最有意思的是,本次发布会还展示了一套AI驱动的虚拟角色系统。现实中,虚拟人物3天时间,通过强化学习的方式在元宇宙苦练10年。一旦你的技能有所发展,无论你是在游戏中还是在动画中,你都会成为一名优秀的“动作演员”。用它生成动画不需要绑定骨骼和k帧,可以用自然语言下达指令,就像导演与现场演员交流一样,大大缩短了开发流程。要讨论元宇宙的基础设施,就不得不看黄黄了。Venturebeat对此发表评论称,“这些案例赋予了Metaverse真正的意义。”那么,您看好英伟达的全方位前景吗?更多详情可点击完整演讲地址(含汉字):https://www.nvidia.cn/gtc-global/keynote/?nvid=nv-int-bnr-223538&sfdcid=Internal_banners