当前位置: 首页 > 科技观察

全球8台TOP10超级计算机选择英伟达的3个理由

时间:2023-03-13 02:21:51 科技观察

本文转载自雷锋网。本周,正是一年一度的高性能计算大会ISC。今天是更新超级计算机TOP500榜单的时候了。根据TOP500刚刚发布的超算TOP500榜单,中国以226台的部署位列第一,美国以114台的部署位列第二,日本以30台位列第三。2020年6月更新的TOP500超算系统排名如果仔细观察这份最新榜单,你会发现TOP10超算中有8台使用了NVIDIAGPU、InfiniBand网络技术,或者这两种技术。在TOP500榜单的系统中,有333套(三分之二)采用了NVIDIA技术。TOP500超级计算系统采用了NVIDIAGPU、Mellanox网络技术,或者两种技术的数量。三年前,也就是2017年6月,TOP500榜单使用NVIDIA和Mellanox(被NVIDIA以69亿美元收购)系统的有203台,不到TOP500超算系统的一半。英伟达为何能在超算领域取得如此迅猛的进步?TOP100超级计算机为何选择英伟达?高速数据互联技术的普及英伟达愿意高价收购Mellanox的重要原因是高速数据互联在大数据时代,尤其是超级计算系统中变得越来越重要。自2019年11月以来,TOP500榜单中使用HDRInfiniBand的系统数量几乎翻了一番。共有141台超级计算机使用InfiniBand,自2019年6月以来增长了12%。如今,近四分之三(74%)的新InfiniBand系统在TOP500榜单采用了NVIDIAMellanoxHDR200GInfiniBand,这是智能高速数据互联技术迅速普及的体现。此外,在TOP500超级计算机中,有305个系统使用NVIDIAMellanoxInfiniBand和以太网网络(61%)。在InfiniBand为排名前10的超级计算机中的7台加速ISC期间,Nvidia宣布推出MellanoxUFMCyber??-AI平台。新平台使用人工智能分析技术检测安全威胁和运营问题并预测网络故障,可显着减少InfiniBand数据中心停机时间。收购Mellanox和智能高速数据互联的快速普及是英伟达产品在TOP500榜单中占比快速提升的关键,但作为超级计算系统,性能更为关键。超高性能系统的构建就像积木一样。特别是人工智能和分析成为科学计算的新需求。世界各地的研究人员都在利用深度学习和数据分析来预测各个具有最大潜力的领域,然后进行实验。在GTC2020上,NVIDIA表示,美国阿贡国家实验室的研究人员使用由24个NVIDIADGXA100系统组成的集群来扫描数十亿种药物,以找到治愈COVID-19的方法。Nvidia最新的Ampere架构GPUA100是推动超算系统选择Nvidia产品的关键之一。在6U服务器中集成了8个A100GPU和NVIDIAMellanoxHDRInfiniBand网络技术的NVIDIADGXA100AI系统的单节点性能达到了创纪录的5petaflops。由140个DGXA100系统组成的新一代DGXSuperPOD的AI算力高达700Petaflop。这对于已经达到百亿亿级超级计算的竞争意义重大,并且该系统具有良好的可扩展性。据NVIDIA介绍,DGXSuperPOD架构设计展示了如何使用高性能NVIDIAMellanoxInfiniBand交换机像搭积木一样连接20个DGXA100系统。四名操作员可以在不到一个小时的时间内组装一个由20个系统组成的DGXA100集群,从而创建一个具有2-petaflops性能的系统。据悉,通过加入NVIDIAMellanoxInfiniBand交换层,NVIDIA工程师将14组模块组连接起来,每组配备20个DGXA100系统,打造出Selene。Selene系统拥有:280个DGXA100系统2240个NVIDIAA100GPU494个NVIDIAMellanoxQuantum200GInfiniBand交换机56TB/s网络架构7PB高性能全闪存Selene最重要的性能规格之一是它可以提供超过1exaflopsAI性能。而且,在TPCx-BB关键数据分析基准测试中,使用16个DGXA100系统创造了新的记录,性能是其他系统的20倍。在ISC2020期间,Nvidia还宣布了A100的PCIe版本,以补充上个月宣布的四卡和八卡NVIDIAHGXA100配置,使服务器制造商能够提供从内置单个A100GPU到带有一个或一个或多个卡的10A服务器的系统。10个以上的GPU可以进一步更好地满足超算系统的建设需求。除了性能,TOP500超算系统还非常注重能耗,这也是英伟达能够吸引超算系统厂商的另一个原因。平均能效提升2.8倍据Nvidia称,在能效方面,使用NvidiaGPU的TOP500超级计算机系统的能效(以gigaflops/watt为单位)平均比没有使用它们的系统高2.8倍。这种优势在上述Nvidia内部研究集群的新成员Selene身上体现得最为明显。据悉,Selene在Linpack基准测试中的性能为27.5petaflops,在最新的Green500榜单中排名第二,在TOP500榜单中排名第七。Selene的功耗为20.5gigaflops/watt,与Green500榜单第一名相差不大,但排名第一的MN-3系统体积更小,性能排名第394位。NVIDIAGPU将TOP500超级计算机的能源效率平均提高2.8倍。值得一提的是,Selene是TOP100系统中唯一突破2020gigaflops/watt能效性能壁垒的系统。也是世界上第二大工业超级计算机,仅次于能源巨头EniS.p.A的意大利No.6系统。Selene的能源效率比未使用的超级计算系统高出TOP500系统平均性能的6.8倍英伟达显卡。这种性能和能效归功于A100GPU中的第三代TensorCore核心,最新一代TensorCore可以为传统的64位数学模拟和低精度AI工作提供加速。雷锋网总结高性能计算处理器是一个企业产品性能领先的体现,也是生态实力的体现。Nvidia在ISC2020期间宣布,预计今年夏天将推出30款搭载A100的服务器,年底将推出20多款系统。包括Asus、Atos、Cisco、DellTechnologies、Fujitsu、Gigabyte、HPE、Inspur、Lenovo、OneStopSystems、Quanta/QCT和Supermicro。黄仁勋在GTC2020上强调,DGXA100系统可以实现高利用率和低总拥有成本。当以高价着称的英伟达高性能GPU开始强调总体拥有成本和能源效率时,对于市场上的其他竞争者来说无疑是个坏消息,这也是吸引更多超算系统入驻的关键。使用Nvidia产品因素。此外,NVIDIA还推出了针对Ampere架构和A100优化的软件支持,包括CUDA11和50多个CUDA-X库的新版本;NVIDIAJarvis,一个多模式对话式人工智能服务框架;NVIDIAMerlin,深度推荐应用框架;RAPIDS开源数据科学软件库套件;英伟达高性能计算软件开发工具包。正在通过软硬件产品帮助开发者构建和加速HPC、基因组学、5G、数据科学、机器人等领域应用的NVIDIA,未来的改进重点是什么?