ChatGPT风靡网络,其背后的AI模型训练也广受关注。IBMResearch最近宣布其云原生超级计算机Vela可以快速部署并用于训练基本的AI模型。自2022年5月以来,该公司的数十名研究人员一直在使用超级计算机训练具有数百亿参数的AI模型。基础模型是在大量未标记数据上训练的AI模型,它们的通用性意味着它们只需微调即可用于一系列不同的任务。它们的尺寸非常大,需要大量且昂贵的计算能力。因此,正如专家所说,计算能力将成为开发下一代大规模基础模型的最大瓶颈,训练它们需要大量的计算能力和时间。训练能够运行数百亿或数千亿参数的模型需要高性能的计算硬件,包括网络、并行文件系统和裸金属节点。该硬件难以部署且运行成本高昂。微软于2020年5月为OpenAI构建了一台AI超级计算机,并将其托管在Azure云平台上。但IBM表示它们是硬件驱动的,这会增加成本并限制灵活性。云中的AI超级计算机因此IBM创建了一个名为Vela的系统,“专门针对大规模AI”。Vela可以根据需要部署到IBM的任何一个云数据中心,它本身就是一个“虚拟云”。虽然与构建物理超级计算机相比,这种方法的计算能力有所下降,但它创建了一个更灵活的解决方案。云计算解决方案通过API接口为工程师提供资源,更轻松地访问广泛的IBM云生态系统以进行更深入的集成,并能够根据需要扩展性能。IBM工程师解释说,Vela无需构建自定义存储后端,而是能够访问IBM云对象存储上的数据集。以前,这些基础设施必须单独构建到超级计算机中。任何AI超级计算机的关键组成部分是大量的GPU和连接它们的节点。Vela实际上是将每个节点都配置为一个虚拟机(而不是裸机),这是最常见的方法,也被广泛认为是最理想的AI训练方法。Vela是如何建造的?云虚拟机的缺点之一是性能无法保证。为了解决性能下降问题并在虚拟机内部提供裸机性能,IBM工程师找到了一种释放全节点性能(包括GPU、CPU、网络和存储)并将负载损失减少到5%以下的方法。这涉及为虚拟化配置裸机主机,支持VM缩放、大页面和单根IO虚拟化,以及VM内所有设备和连接的真实表示;还包括将NIC与CPU和GPU匹配,以及它们之间的关系如何弥合差距。完成这项工作后,他们发现虚拟机节点的性能“接近裸机”。此外,他们还致力于设计具有大GPU内存和大量本地存储的AI节点,用于缓存AI训练数据、模型和成品。在使用PyTorch的测试中,他们发现通过优化工作负载通信模式,与超级计算中使用的更快的类似Infiniband的网络相比,他们还能够弥补以太网网络相对较慢的瓶颈。配置方面,每台Vela采用8颗80GBA100GPU、2颗第二代英特尔至强可扩展处理器、1.5TB内存和4块3.2TBNVMe硬盘,可以任意规模部署到IBM全球任意云数据中心。IBM工程师表示:“拥有合适的工具和基础架构是提高研发效率的关键因素。许多团队选择遵循为AI构建传统超级计算机的成熟路径……我们一直致力于更好的解决方案,以提供双重优势高性能计算和高端用户生产力。”
