当前位置: 首页 > 科技观察

如何获得GPU存储性能

时间:2023-03-17 15:31:31 科技观察

支持AI和ML机器学习部署的数据中心依赖基于图形处理单元(GPU)的服务器为其计算密集型架构提供动力。到2024年,GPU使用率的增长将推动多个行业的GPU服务器复合年增长率超过31%。这意味着更多的系统架构师将承担起确保GPU系统最高性能和成本效益的责任。然而,为这些基于GPU的AI/ML工作负载优化存储并非易事。存储系统必须高速处理海量数据,同时需要关注以下两个挑战:1)服务器利用率。GPU服务器对于训练大型AI/ML数据集所需的矩阵乘法和卷积非常有效。然而,GPU服务器的成本是典型CPU服务器的3倍。为保持投资回报率,IT人员需要充分利用GPU。但遗憾的是,很多部署经验表明,GPU的使用率只有30%。2)GPU存储瓶颈。ML训练数据集通常远远超过GPU的本地RAM容量,造成分析师称之为GPU存储瓶颈的I/O瓶颈。AI和ML系统最终会等待访问存储资源,因为它们庞大的数据量无法及时访问,从而影响性能。为了解决这个问题,NVMe闪存SSD正在逐渐取代标准闪存SSD成为Al/ML存储的首选。NVMe支持大规模IO并行,性能是同类SATASSD的6倍左右,延迟降低10倍,具有更高的电源效率。正如GPU支持高性能计算一样,NVMe闪存支持更高的存储性能、带宽和吞吐量,同时减少延迟。NVMe闪存解决方案可以更快地将AI和ML数据集加载到应用程序中,并避免GPU饥饿。此外,NVMeOverFabrics可以将整个高速网络上的NVMe资源虚拟化,NVMeoF技术可以更好地适用于AI和ML存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池,因此可以使用本地闪存性能访问所有资源。它使AI数据科学家和HPC研究人员能够向应用程序提供更多数据,以便他们能够更快地获得更好的结果。获得最佳GPU存储性能需要根据业务目标微调基础架构。这里有四种方法可供考虑。1.有效扩展GPU存储容量例如,一家存储公司为不需要运行自己的AI堆栈的组织提供AI即服务解决方案。因此,该公司需要最大的投资回报率和可扩展性。尤其是多租户的需求,这意味着基础设施必须随时准备就绪,以满足各种工作负载和客户端的性能需求。基础架构团队在部署其首个GPU服务器系统的早期了解到,本地GPU服务器存储容量太有限,只有4TB的本地存储,而客户工作负载需要10到100TB的数据。该团队研究了外部存储选项,并注意到使用传统阵列可以获得更多容量,但性能最终会阻碍AI工作负载,因为应用程序需要将数据移入和移出GPU系统,从而中断工作流程并影响系统效率。最终,该公司可以实现更高的GPU容量利用率,消除GPU瓶颈并提高投资回报率,从而使现有GPU得到更充分的利用。(注:参考lnstaDeep)2.大规模性能调整AI部署的快速增长和ML训练数据集的规模增加了计算基础设施的负担,STFC(TheScienceandTechnologyFacilitiesCouncil)是典型代表这。虽然STFC添加了高端GPU服务器以提供更高的计算支持,但STFC缺乏跨数百名研究人员扩展资源所需的企业级存储功能。通过在支持RDMA的高速网络(例如Infiniband或RDMAoverConvergedEthernet(RoCE)v2)上实施NVMe-over-Fabrics协议,STFC等大型AI/ML用户组可以在各种存储池上虚拟化NVMeSSD服务器上未使用的资源,以便它们像在本地一样执行。通过这样做,机器学习训练任务可以在一个小时内完成,而之前需要三到四天。即使是复杂的模型训练任务,GPU存储也不再是瓶颈。3.在并行文件系统下使用NVMe池化存储当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时,必须部署并行分布式文件系统作为存储基础设施。并行文件系统还可以更轻松地存储大多数AI/ML使用所需的高吞吐量和低延迟。在并行文件系统下拥有快速、灵活的池化NVMe存储可以改善元数据的处理,从而提高读取性能和降低延迟,从而提高GPU服务器利用率。例如,一家超大规模技术提供商最近推出了一种人工智能解决方案,用于估计保险公司使用的车辆碰撞场景。为了开发应用程序背后的AI逻辑,应用程序工作流程涉及通过摄取多达2000万个小文件的数据集来训练模型,其中每个文件的大小在150-700KB之间。数据提取通常每8小时发生一次,速率为每个客户端每秒100万个文件或最多35,000个文件。通过在并行分布式文件系统下使用池化的NVMe存储方式,技术提供商解决了其遇到的存储瓶颈,并将存储性能提升了3-4倍。4.检查特定于GPU的“高速公路”新的数据中心架构正在以统一的方式提高服务器、网络和存储性能。一种类似的方法于2019年秋季首次亮相,将来自多个供应商的基础设施元素与GPU优化的网络和存储相集成,以在GPU内存和存储之间打开一条直接数据路径,从而完全绕过CPU的开启。这使数据能够通过GPU、存储和网络设备提供的“开放高速公路”传输,从而轻松获得NVMe的企业级性能。总结AI和ML的快速创新意味着今天的部署依赖和一年前不存在的关键技术可能会在明年被新技术取代。现在精通微调GPU存储性能的IT团队已经意识到,他们有许多新的选择来实现最佳系统利用率和投资回报率,从而为他们的组织带来竞争优势。参考链接:https://www.enterpriseai.news/2020/03/17/how-to-beat-the-gpu-storage-bottleneck-for-ai-and-ml/