NVIDIA携手OEM合作伙伴参加MLPerf测试:采用GPU加速系统,引领全球最快AI模型训练提出更高要求。如何提升数据中心的计算能力以满足业务需求,成为企业面临的重大挑战。为此,NVIDIA不断优化产品组合,联合生态伙伴推出众多面向AI的产品组合,进一步提升数据中心的计算能力。 近日,NVIDIADGX以及戴尔、富士通、技嘉、浪潮、联想、宁昌、超微等公司提供的各种搭载NVIDIA技术的系统在最新的MLPerf基准测试中取得了优异的成绩,进一步发挥了自己的实力确认其在高性能计算领域的绝对优势。 使用GPU加速系统,实现全球最快的AI模型训练速度 在最新的MLPerf测试中,来自全球的七家公司测试了至少十几个商用系统,其中大部分都获得了NVIDIA认证系统。除NVIDIA外,戴尔、富士通、技嘉、浪潮、联想、宁昌、AMD也参与了本轮测试,使用NVIDIAA100TensorCoreGPU取得业界领先的神经网络训练效果。 MLPerf是一系列测试机器学习性能的标准。在标准目标下训练机器学习模型所需的时间,它充当一组系统性能指标。训练任务包括图像识别、目标检测、NLP自然语言处理和强化学习。 根据MLPerf最新公布的结果,NVIDIA合作伙伴提供的GPU加速系统实现了全球最快的AI模型训练速度。 据了解,在基准测试中,只有NVIDIA及其合作伙伴跑完了全部八类工作负载,占所有提交量的四分之三以上,取得了非常好的成绩。 NVIDIA的性能比去年的分数提高了3.5倍。对于需要最高性能的大规模作业,NVIDIA调动了创纪录的4,096个GPU,超过了所有其他玩家。 虽然取得了不错的成绩,但是对于NVIDIA来说,这只是第四次参加测试。当然,对于NVIDIAA100GPU来说,这只是第二次参加MLPerf测试。 据了解,NVIDIA的工程师已经找到了使用CUDAGraphs推出完整神经网络模型的方法。CUDAGraphs是一个包含NVIDIACUDA操作及其依赖项的包。消除了以往测试中AI模型由大量独立核心组成的CPU瓶颈。 此外,在大规模测试中使用了NVIDIASHARP。该软件整合了网络交换机内的多项通信任务,减少了网络流量和CPU等待时间。 CUDAGraphs和SHARP的结合使数据中心能够使用有史以来用于训练的最大数量的GPU。在很多领域,比如自然语言处理,随着AI模型参数增加到数十亿量级,这样的组合刚好可以提供所需的强大能力。 最新的A100GPU上的内存带宽增加了近30%,达到2TB/s以上,同时还带来了许多其他改进。 性能+敏捷,夯实人工智能应用基础 对于AI来说,不仅需要强大的性能,对平台的灵活性和敏捷性也有更高的要求。这是因为,随着用户对性能的不断追求,要求数据中心集群具有很强的灵活性,能够快速扩展计算集群以满足业务需求。 在性能方面,通过最新一轮的MLPerf基准测试结果不难发现,NVIDIAAI平台在最短时间内完成了模型训练,创下了商业投稿类全部八项基准测试的性能记录.基于NVIDIADGXSuperPOD的Selene在商业系统类别的所有八项测试中均创下纪录 此外,NVIDIA还对Selene进行了大规模测试。根据最新的全球TOP500榜单,Selene是全球最快的商用AI超级计算机。这台超级计算机以及此列表中的其他十几个系统均基于NVIDIADGXSuperPOD架构。 在芯片比较中,NVIDIA及其合作伙伴在最新商用系统上测试的所有八项基准测试中均创下记录。A100GPU在商业系统类别的所有八项测试中均创下纪录 总的来说,从下图的结果可以看出,NVIDIA在两年半的时间里性能提升了6.5倍之多,充分体现了展示了包括GPU、系统和软件在内的全栈NVIDIA平台的实力。NVIDIAAI通过全栈改进持续驱动性能提升 除了出色的性能,NVIDIA在数据中心集群扩展方面也拥有非常强大的核心优势。 为了方便集群的扩展,NVIDIA打造了具有超强深度学习训练性能的DGX-1AI超级计算机,它集成了多种有利于多节点扩展的系统技术,并根据实践经验,总结了多节点系统的构建。建议和各种参考架构设计可帮助IT管理员更经济高效地构建高性能多节点系统。 NVIDIA在DGX-1节点GPU之间采用超高带宽通道NVLink,与传统基于PCIeGen3的互联相比,速度可提升10倍。此外,NVIDIA还为每个系统配备了4个InfinBand100Gb/s扩展数据速率(EDR)端口,并结合软件技术提供了GPU之间优化的通信方式。 为帮助数据中心工作人员进一步节省构建AI基础设施所需的时间和试错成本,NVIDIA与领先的存储和网络交换技术提供商合作,提出了优化的数据中心机架——DGXPOD交付节点(PointofDelivery). 在此基础上,NVIDIA将其在超大规模数据中心的AI部署经验转化为可复制的解决方案,将包括多台DGX-1、存储服务器、网络交换机等设备在内的最佳实践方案整合为一系列DGXPOD数据中心交付节点设计参考架构。【原创稿件,合作网站转载请注明原作者和出处为.com】
