微软正在开发一款由微软Azure云平台托管的新型超级计算机,用于人工智能训练和深度学习应用。大规模采用NVIDIAH100的公司之一。此前,微软与OpenAI于2019年达成合作伙伴关系,在微软Azure云平台上开发了第一台超级计算机。H100是Nvidia面向服务器的旗舰加速GPU,提供更高的功耗和速度,比之前基于Ampere架构的A100快6倍。Geek.com了解到,H100和A100GPU以及NVIDIAQuantum-2400Gb/sInfiniBand网络和NVIDIAAIEnterprise软件套件将成为微软新构想的超级计算机的核心。这项新业务还将利用微软的云计算基础设施(Azure)和虚拟机(ND和NC系列)。据悉,通过此次合作,英伟达希望在无监督(或半监督)算法学习方面取得更大进展,让机器创造文本、代码、数字图像、视频或音频等内容。该领域被广泛称为生成人工智能。Nvidia将使用MegatronTuringNLG530B(它对OpenAI的GPT-3的回应)来做到这一点。微软将通过其开源库DeepSpeed满足人工智能和深度学习工作负载优化。DeepSpeed可以帮助最小化网络基础设施要求。该合作伙伴关系还确保Azure客户能够访问NVIDIA的云原生企业级人工智能和数据分析工具、软件和框架套件,即NVIDIAAIEnterpriseSoftwareSuite。“我们与微软的合作将为研究人员和企业提供最先进的人工智能基础设施和软件,以利用人工智能的变革力量,”英伟达企业计算副总裁ManuvirDas说,该公司目前拥有一台Selene超级计算机,它是在COVID-19大流行期间建造的。它基于A100,在HPL上具有2.8exaflops和petaFLOPS的峰值AI性能。它用于机器学习、AI数据分析和高性能计算(HPC),以及用于训练AI模型GauGAN2。与OpenAI的GLIDE和DALL-E一样,GauGAN2可以将草图和文本合成为逼真的图像。此外,NVIDIA还拥有为未来高级气候科学研究、数字生物学和人工智能打造的NVIDIAEos。其拥有576个DGXH100系统和4608个DGXH100GPU,将提供18.4exaflops的人工智能计算性能和275petaflops的常规科学计算性能(HPL),比日本Fugaku(目前在Top500榜单中排名第二)快4倍。不过,Nvidia并不看好Selene(Top500榜单第9位)和正在开发中的Eos生成式人工智能超级计算机。微软云计算和人工智能业务执行副总裁ScottGuthrie解释说:“我们与NVIDIA的合作将构建全球最具扩展性的超级计算机平台,为MicrosoftAzure云平台上的每一位用户提供最先进的人工智能能力。”本质上,两家公司的合作旨在实现生成式AI超级计算的可扩展性,而不是纯粹的容量增强。“客户可以在单个集群中部署数千个GPU,以训练最大的大规模语言模型,构建最复杂的推荐系统NVIDIA企业计算副总裁ManuvirDas表示,“并大规模实施生成式AI。”Nvidia还通过其OmniverseCloud工具和服务套件扩展3D内容、??设计和模拟。3D内容甚至可以在没有GeForce或NVIDIARTX硬件或任何其他高性能的传统计算机上运行。并开发了新的企业应用程序,”Das强调说。
