当前位置: 首页 > 科技观察

NvidiaCPU问世:ARM架构,性能比x86提升十倍

时间:2023-03-12 02:15:32 科技观察

》只需一张GeForce显卡,每个学生都可以拥有一台超级计算机,这正是AlexKrizhevsky、Ilya和Hinton用来训练AI的方法以AlexNet方式建模。借助超级计算机中的GPU,我们现在可以让科学家在其一生中追求无尽的科学事业,”NVIDIA创始人兼首席执行官黄仁勋表示。4月12日晚,NVIDIAGTC2021大会线上开赛。可能是因为长期远程办公不用出门吧。让人惊讶的是,在自家厨房讲Keynote的黄老板留着一头摇滚风的长发:如果你只是对他的黑色皮夹克印象深刻,先对比一下2019、2020和2021的GTC,老黄气质越来越摇滚了。有这样的气质,今天黄仁勋推出的新品肯定会不一样。“这是世界上第一个专为TB级计算而设计的CPU。”在GTC大会上,黄仁勋展示了英伟达首款面向超大型AI模型和高性能计算的中央处理器Grace。Nvidia也在制造CPU。Grace使用相对低能耗的Arm内核,但它可以为训练超大型AI模型的系统提供约10倍的性能提升。英伟达表示,它是10,000多名工程师数年研发的成果,专为满足全球最先进应用的计算需求而设计。其计算性能和吞吐量是以往任何架构都无法比拟的。“结合GPU和DPU,Grace为我们提供了第三种基础计算能力,并有能力重新定义数据中心架构和推进AI,”Huang说。Grace的名字来源于计算机科学家GraceHopper,她是世界上最早的程序员之一,也是最早的女性程序员之一。她创造了第一个现代编译器A-0系统和第一个高级商业计算机编程语言“COBOL”。计算机术语“调试”(debugging)的灵感来源于她驱除计算机中的飞蛾,因此她也被称为“调试之母”。利用Arm架构的灵活性,Nvidia的Grace芯片是专为加速计算而设计的CPU和服务器架构,可用于训练具有超过1万亿参数的下一代深度学习预训练模型。当与NVIDIA的GPU结合使用时,整个系统的性能比当今最新的基于x86CPU的NVIDIADGX快10倍。目前Nvidia自家的DGX采用的是AMD的7nm工艺罗马架构CPU。据介绍,宏力采用了更先进的5nm工艺。在内部通信能力方面,它采用了英伟达第四代NVIDIANVLink,相比之前的产品,在CPU和GPU之间提供高达900GB/s的双向带宽。增加了八倍。Grace还是首款利用LPDDR5x内存系统的CPU,通过纠错码(ECC)等机制提供服务器级可靠性,同时提供2倍的内存带宽和高达10倍的能效。在架构上,它使用下一代ArmNeoverse内核在节能设计中提供高性能。基于这款CPU和尚未发布的下一代GPU,瑞士国家超级计算中心和苏黎世联邦理工学院将建造一台名为“Alps”的超级计算机,计算能力为20Exaflops(目前是世界上第一台超级计算机“富岳”),其计算能力约为0.537Exaflops),这将实现每两天训练一次GPT-3模型的能力,比目前基于NvidiaGPU的Selene超级计算机快7倍。美国能源部下属的洛斯阿拉莫斯国家实验室也将在2023年推出基于Grace的超级计算机。Grace可以说是Nvidia在今年GTC上最亮眼的产品。其高度专业化的设计与x86版本的通过PCIe链接的CPU-GPU系统有很大不同,后者反过来可以获得更好的性能。GPU+CPU+DPU,三管齐下》简单地说,目前市场上每年交付的3000万台数据中心服务器中,有三分之一用于运行软件定义的数据中心堆栈,并且它们的负载正以惊人的速度增长比摩尔定律快得多的速度。除非我们找到加速的方法,否则运行应用程序的计算能力将越来越少,”黄说。“新时代的计算机需要新芯片,新系统架构,新网络、新软件和工具。”除了制造CPU的大新闻外,英伟达还在一个半小时的Keynote中发布了大量重要的软硬件产品,涵盖了AI、汽车、机器人、5G、实时图形、云协作、数据中心,英伟达的技术为我们描绘了一幅迷人的未来图景。首先是用来训练Transformers的框架——NVIDIAMegatron。Transformers帮助开发人员在自然语言处理方面取得了突破。在医疗领域,英伟达发布了计算药物开发加速库ClaraDiscovery的部分新模型,并引入了基于物理学和机器学习的顶级药物开发和材料科学计算平台Schrodinger。在量子计算领域,Nvidia发布了量子计算模拟环境cuQUANTUM,有助于加速依赖量子比特(或量子比特,可以作为单个0或1,或两者同时存在)的量子计算研究,为量子电路模拟器提供加速,从而帮助研究人员设计出更完整的量子计算机。为了保障现代数据中心的安全,NVIDIA发布了Morpheus数据中心安全平台,该平台基于NVIDIAAI、NVIDIABlueField、Net-Q网络遥测软件和EGX构建,可以实时检测完整的数据包。为加速对话式人工智能的发展,NVIDIA发布了其对话式人工智能的新版本NVIDIAJarvis,可实现语音识别、语言理解、翻译和表达性语音,同时还支持更广泛的语言种类。推荐系统是搜索、广告、在线购物、音乐、书籍、电影、用户生成的内容和新闻的引擎。为加速推荐系统,黄仁勋宣布NVIDIAMerlin现在可通过NGC(NVIDIA的深度学习框架容器目录)获取。为了帮助客户在保护数据隐私的同时应用他们在AI领域的专业知识,NVIDIA发布了NVIDIATAO,它可以使用客户和合作伙伴的数据来微调和适配NVIDIA预训练模型。推理服务器NVIDIATriton,可以从进入客户EGX服务器或云实例的连续数据流中获得洞察力。“这包括在cuDNN上运行的任何人工智能模型,这几乎是所有人工智能,包括来自TensorFlow、Pytorch、ONNX、OpenVINO、TensorRT或自定义C++/python后端等的任何框架。Jen-HsunHuang宣布推出BlueField-3DPU,它将进一步加速构建超大规模数据中心、工作站和超级计算机所需的基础设施。这种下一代数据处理器将提供最强大的软件定义网络、存储和网络安全加速。据介绍,一个BlueField-2可以实现相当于30个CPU核心的工作负载,而BlueField-3在此基础上实现了10倍的性能飞跃,可以替代300个CPU核心,以400Gbps的速率向网络传输流量受到保护、卸载和加速。黄仁勋表示,英伟达新的数据中心路线图已经包含了三种芯片:CPU、GPU和DPU,其中Grace和BlueField是必不可少的关键部件。致力于基于Arm的CPU并不意味着Nvidia将放弃原来的x86、Power和其他架构。黄仁勋将英伟达重新定义为“三芯片”公司,涵盖CPU、GPU和DPU。对于未来的发展节奏,黄仁勋表示:“我们的发展将涵盖三个产品线——CPU、GPU和DPU,并且每两年更新一次,第一年更新x86,第二年更新Arm。”最后是自动驾驶。“对于汽车来说,更高的算力意味着更多的智能,开发者可以让产品迭代更快。TOPS就是新的马力。”黄仁勋说。NVIDIADRIVEOrin是将于2022年投产的NVIDIA自动驾驶汽车计算系统级芯片,旨在成为涵盖自动驾驶和智能汽车的汽车中央计算机。搭载Orin的量产车还未面世,但英伟达已经在规划下一代超过L5级驾驶能力的计算系统。该公司专为汽车行业设计的下一代SoCAtlan,将采用宏力的下一代CPU和下一代Ampere架构GPU,同时还集成了数据处理单元(DPU)。因此,Atlan可以实现每秒超过1,000万亿次运算(TOPS)。如果一切顺利,2025年生产的新机型将搭载Atlan芯片。同时,英伟达还展示了Hyperion8自动驾驶汽车平台,这是业界最强大的自动驾驶汽车模板——配备了3台Orin中央计算机。不知道这些更强大的芯片和系统能否满足未来几年人们对算力的无尽需求。在GTC2021上,NVIDIA更新了深度学习模型的指数增长图表。“三年时间,大规模预训练模型的参数数量增长了3000倍,我们预计2023年将有100万亿参数的模型。”黄仁勋说道。凭借今天英伟达发布的一系列产品,该公司可以为您提供几乎所有行业和领域最强大的机器学习计算能力。黄仁勋主题演讲发表时,公司股价一度突破600美元大关。“20年前,这一切还只是科幻情节;10年前,还只是梦想;今天,我们正在实现这些愿景。英伟达每年在GTC大会上发布的新品已经成为行业的方向不知道Grace推出后,以后我们的服务器和电脑会不会快速进入Arm时代。