当前位置: 首页 > 科技观察

AI进军数据中心:你的企业预留一席之地了吗?

时间:2023-03-15 01:33:18 科技观察

人工智能应用的时机已经成熟。但在企业数据中心实施人工智能会给网络、存储和计算基础设施带来障碍。虽然人工智能的概念早在上世纪50年代就已经出现,但其在IT中的主流应用才刚刚开始出现。根据Gartner的研究,到2021年,深度学习和人工智能等工作负载将成为数据中心设计和架构的重要因素。AI应用将影响每个垂直行业和行业,因此采取积极措施在数据中心规划、构建和培育深度学习和AI实践非常重要。大多数组织尚未实施人工智能。在大多数情况下,Google和AmazonWebServices等超大规模公共云提供商是早期采用者,而绝大多数最终用户都难以入门。Gartner研究总监ChiragDekate表示:“由于这是一个不断变化的目标,因此很难初始化开发AI和深度学习环境的实践。这个想法很棒,但当你开始开发和设计解决方案时,你开始遇到问题。”这是一个问题,这就是很多最终用户现在所处的位置。”来自存储的挑战深度学习和人工智能应用需要大量数据来训练、测试和验证神经网络算法,这可能会给数据中心管理员带来存储挑战。挑战。“如果你的机器学习算法基于回归,你可以使用有限的数据集,但使用更先进的高价值神经网络生态系统,你会逐渐遇到规模问题,”Dekate说。传统的网络附加存储架构可以提供即时结果、易于部署和开箱即用的效率,但它们也会显示出I/O扩展和延迟方面的问题。Dekate说,一些初创公司正在试验高带宽并行文件系统以提高吞吐量并实现规模化,但这些仍然是外围方法。并行文件系统涉及从元数据服务器到存储目标的许多移动部件,必须对其进行优化、调优和调优以最高效率运行。“它们[并行文件系统]系统]非常复杂,需要经过严格的测试。“然而,大数据分析——另一个数据饥渴的举措——为许多IT组织提供了一个重新调整存储策略的平台。451Research的研究经理ChristianPerry表示:“当AI成为现实,可以被企业部署时,从存储的角度来看,由于大数据和分析,容量方面已经解决了。物联网也是预计将在特定组织中推动大规模应用的规划,我认为基础设施已经能够处理大型存储需求。”来自网络的挑战深度学习框架的局限性在规模方面带来了挑战——对于可扩展的网络架构,性能显着超出单个计算节点。要扩展以提供更高的效率,管理员必须升级和改进他们的网络,但大多数还没有Dekate说:“如果你看一下深度学习算法,就会发现它们的通信量非常大。”“尝试为这样的聊天应用程序堆栈构建解决方案对于组织来说将非常困难开始。”随着数据中心的发展,当网络架构师为AI准备基础设施时,他们必须优先考虑可扩展性,这将需要高带宽、低延迟网络和创新架构,如InfiniBand或Omni-Path。关键是保持所有选项的开放性自动化,佩里说。自动化数据中心基础设施管理技术市场正在迅速成熟,表明自动化正变得越来越广泛在数据中心行业中很受欢迎。“还有一些自动化功能已经可用,这将有助于为引入人工智能奠定基础,”佩里说。计算挑战人工智能应用在数据中心计算端的实现面临着极其严峻的挑战。基于CPU的环境可以处理绝大多数机器学习和人工智能工作负载,从随机森林回归到集群。但是,当IT深入挖掘深度学习功能时,需要遍历多个大型数据集并部署可扩展的神经网络算法,基于CPU的生态系统可能还不够。为了提供计算能力,IT部门必须集成NVDIAGPU、AdvancedMicroDevicesGPU和IntelXeonPhi等技术。“您需要混合或异构架构,其核心处理器由专用加速器填充,为您的应用程序提供更高的计算密度和更高的吞吐量,”Dekate说。实施GPU还使管理员能够优化数据中心基础设施以提高能效。当管理员将基于GPU的生态系统临时扩展到单个节点时,他们的电力需求变得更加紧迫。谷歌等超大规模供应商已经认识到这种需求;该公司的人工智能部门DeepMind将减少40%冷却其数据中心所需的能源。但实际上,更广阔市场中的所有企业数据中心都缺乏谷歌拥有的资源,也无法复制这种模式来解决效率问题。对于大多数拥有传统生态系统的企业而言,实施这些创新技术既复杂又昂贵。例如,由最新的XeonPhi驱动的芯片价格高达6,294美元——英特尔迄今为止最昂贵的芯片。而想要集成深度学习能力的IT团队,需要的不仅仅是芯片,还需要高密度的加速卡。这些高密度计算配置可用于超大规模环境、医疗保健组织、金融服务等。“我们已经看到了高密度产品——大约是两个CPU与八个GPU的比例密度,”Dekate说。也就是说,在这种环境下,一个服务器节点上一个服务器单元的成本可以高达15万。美元。”有一些方法可以减轻这些技术的高价标签。许多组织使用公共云,在某些情况下使用IBMWatson,在做出任何深入的内部承诺之前测试AI应用程序的可靠性。此外,佩里说,服务器更新的时间范围远远超出了传统的三年更新计划。如今,许多组织每五到七年更新一次服务器。因此,他们的IT预算捉襟见肘,可以用于满足内部需求的价格更高的基础设施。“我们已经看到它应用于融合基础设施,并且它正在应用于超融合基础设施,”佩里说。“是的,这是一个非常昂贵的障碍,但转型非常值得。”