如果您希望在数据中心部署人工智能,请仔细考虑您将首先投资的硬件和基础设施。人工智能涵盖了机器学习和深度学习等一系列技术。人工智能包括范围广泛的商业应用,从预测未来表现的分析到推荐系统和图像识别。随着越来越多的大型企业将其作为数字化转型工作的一部分,人工智能正在不断扩展和发展。了解您的企业为何需要AI可以帮助您决定支持它的基础架构。配备GPU的服务器为服务器配备GPU已成为AI最常见的基础架构方法之一。您可以使用GPU芯片的大规模并行架构来加速处理AI模型所涉及的批量浮点运算。GPU还往往具有广泛而成熟的软件生态系统。例如,Nvidia开发了CUDA工具包,它允许开发人员将GPU用于各种目的,包括深度学习和分析。然而,虽然GPU支持一些深度学习任务,但它们不一定支持所有AI工作负载。“在AI和机器学习的背景下,有些模型不属于深度学习的范畴并且未被充分探索,因为GPU非常擅长神经网络类型的东西,但它不一定擅长某些事情,”IDC分析师杰克弗农说。有趣的算法可以帮助人们做有趣的事情。”在数据中心部署人工智能之前,你应该首先考虑你为什么要采用这项技术来确定一个GPU是否是你想要的。然后,寻求专家建议以确定最适合您的业务需求的模型类型,从而了解您需要哪些额外的基础设施。其他硬件加速器现场可编程门阵列(FPGA)本质上是充满逻辑块的芯片,您可以根据需要配置和重新配置这些逻辑块以执行不同的功能。另一方面,ASIC在制造过程中将逻辑功能内置到芯片中。两者都可以加速硬件性能。对于拥有大量定义明确的工作负载的企业,ASIC更有意义,而FPGA则需要更复杂的编程。谷歌通过其谷歌云平台向客户提供TPU,这是一种专为深度学习而设计的ASIC。另外,Graphcore专门为AI工作负载设计了IPU,而Cambricon提供了围绕针对深度学习优化的指令集设计的处理器芯片。被英特尔收购的HabanaLabs使用可编程加速器作为深度学习训练和推理部分的独立芯片,分别称为Gaudi和Goya。虽然GPU和类似类型的硬件加速器在AI中得到了很多关注,但CPU仍然与AI和机器学习的许多领域相关。例如,英特尔为其服务器CPU添加了功能,以帮助加速AI工作负载。最新的XeonScalable系列采用IntelDeepLearningBoost,它采用新指令来加速推理中涉及的计算类型。这意味着这些CPU可以加速某些AI工作负载,而无需额外的硬件。AI存储在涉及支持AI的基础架构时,企业不应忽视存储。训练机器学习模型需要大量的样本数据,系统必须尽快接收数据以保持性能。“存储是一件非常大的事情,训练过程本身通常涉及一个反馈循环,”弗农说。“因此,您需要在一个阶段保存模型,对其进行一些处理,更新它,然后不断调用它。大多数组织构建培训和推理基础设施通常需要非常快的大量额外存储。”对于拥有HPC基础设施的企业,通常已经有一个快速闪存存储层——以更高容量的层作为后端。对于大多数企业来说,这意味着部署具有尽可能低延迟的NVMeSSD,并以低成本存储为后盾,以提供容量。专用AI系统一些专用系统为AI工作负载提供更高的性能。Nvidia的DGX服务器基于其GPU,其架构经过优化以保持这些GPU获取数据。存储供应商还与Nvidia合作提供经过验证的参考架构用于将高性能存储阵列与NvidiaDGX系统配对。例如,DDN针对用于训练AI模型的所有类型的访问模式和数据布局优化了其AcceleratedAny-ScaleAI产品组合,NetAp和PureStorage等供应商提供类似的存储架构。英特尔提供其OpenVINO工具包作为推理引擎,旨在优化和运行预训练模型。它有一个插件架构师确保它能够在一系列硬件(例如CPU、GPU、FPGA或三者的组合)上执行模型,从而为企业提供更大的部署灵活性。您还可以选择在云端构建和训练您的AI模型,使用按需资源,并在训练完成后停止使用。
