当前位置: 首页 > 科技观察

AI如何创建自动驾驶数据中心

时间:2023-03-18 01:29:28 科技观察

大多数围绕人工智能(AI)的讨论都集中在自动驾驶汽车、聊天机器人、数字双胞胎、机器人技术以及使用基于AI的“智能”系统从大型数据集中学习提取业务洞察力.但有一天,人工智能和机器学习(ML)将在企业数据中心内的服务器机架中发挥重要作用。人工智能在提高数据中心效率和扩展业务方面的潜力可分为以下四大类:电源管理:基于人工智能的电源管理可以帮助优化加热和冷却系统,从而降低电力成本,降低员工效率。该领域的代表性供应商包括施耐德电气、西门子、维谛技术和伊顿。设备管理:人工智能系统可以监控服务器、存储和网络设备的健康状况,检查系统是否保持正确配置,并预测设备何时会出现故障。据Gartner称,AIOpsIT基础设施管理(ITIM)类别的供应商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。工作负载管理:AI系统可以自动将工作负载实时移动到最高效的基础设施,包括数据中心内、混合云环境、本地、云和边缘环境之间。越来越多的小型公司提供基于人工智能的工作负载优化,包括Redwood、TidalAutomation和Ignio。思科(Cisco)、IBM、VMware等重量级企业也有产品。?安全性:AI工具可以“查看”正常网络流量的情况、发现异常、确定需要安全从业人员注意的警报的优先级、帮助对问题进行事后分析,并帮助填补企业安全防御的漏洞建议。提供此功能的供应商包括VectraAI、Darktrace、ExtraHop和Cisco。总而言之,人工智能可以帮助企业创建高度自动化、安全、自我修复的数据中心,这些数据中心几乎不需要人工干预,并且可以以高水平的效率和弹性运行。DellTechnologies全球CTO办公室的杰出工程师Tabet解释说:“AI自动化可以超越人类的能力来解释数据并收集优化能源使用、分配工作负载和最大化效率所需的必要见解,以实现更高的效率。数据中心资产利用率高。”。当然,就像自动驾驶汽车的承诺一样,自动驾驶数据中心还没有到来。在数据中心,AI突破的道路上存在重大的技术、运营和人员配备障碍。技术采用今天才刚刚开始,但潜在的好处将使企业不断寻找采取行动的机会。电源管理利用服务器工作负载管理据估计,数据中心将消耗全球3%的电力供应,并造成约2%的温室气体排放。因此,无论是为了省钱还是为了保护环境,所以很多公司都在认真研究数据中央电源管理。451Research的高级分析师DanielBizo表示,基于AI的系统可以帮助数据中心运营商了解当前或潜在的冷却问题,例如由于高密度机柜导致的气流阻塞、HVAC单元性能不佳或冷热通道不足等由于之间的空气密封不足,冷空气输送。Bizo说,人工智能有望提供“超越良好设施设计的好处”。在数据中心层面,人工智能系统“可以通过将HVAC系统数据与环境意识读数相关联来了解设备。”“电源管理是一种唾手可得的成果,”IT咨询和咨询公司StorageIO的创始人GregSchulz补充道。今天,它关乎生产力,关乎每BTU完成更多的工作,而瓦特的能量可以做更多的工作,这意味着更智能地工作,让设备更智能地工作。“还有一个容量规划的角度。除了寻找热点和冷点之外,AI系统还可以确保数据中心为正确数量的物理服务器供电,并有能力在需求暂时激增的情况。”新的物理服务器。Schulz补充说,电源管理工具正在开发与管理设备和工作负载的系统的挂钩。例如,如果传感器检测到服务器运行过热,系统可能会迅速自动将工作负载转移到未充分利用服务器上,以避免可能影响关键任务应用程序的潜在停机时间。然后,系统可以调查服务器过热的原因——可能是风扇出现故障(HVAC问题),物理组件即将崩溃(设备问题),或者服务器刚刚过载(工作负载问题)。AI驱动的健康监控、配置管理监督充满需要定期维护的物理设备的数据中心。人工智能系统可以超越定期维护,帮助收集和分析遥测数据,以确定需要立即关注的特定区域。“人工智能工具可以嗅出所有这些数据和斑点模式,以及异常值,”舒尔茨说。Bizo补充说:“健康监控首先检查设备配置是否正确并按预期运行。”由于有成百上千个IT机柜和数以万计的组件,这些平凡的任务可能是劳动密集型的,因此并不总是能及时、彻底地执行。他指出,基于大量传感数据日志的预测设备故障模型可以“检测即将发生的组件或设备故障,并评估是否需要立即维护以避免任何可能导致服务中断的容量损失。”JuniperNetworks企业和云营销副总裁MichaelBushong认为,企业数据中心运营商应该忽略一些与人工智能相关的过度炒作和炒作,专注于他所说的“无聊的创新”。总有一天会“告诉我出了什么问题,然后修复它”,但在这一点上,许多数据中心运营商会接受“如果出现问题,告诉我去哪里找”。Bushong说依赖映射也是AI一个重要但不是特别令人兴奋的领域。如果数据中心经理正在对防火墙或其他设备进行策略更改,那么意想不到的后果可能是什么?保持设备平稳安全地运行是控制所谓的配置漂移,这是一个数据中心术语,用于临时配置更改,随着时间的推移可能会导致问题。人工智能可以作为“额外的安全检查”来识别即将发生的基于配置的数据中心问题Bushong表示,AI和SecurityBizo认为,AI和机器学习“可以通过快速对事件进行分类和聚类来简化事件处理(事件响应),从而识别重要事件并将其与噪音分开。更快的根本原因分析有助于操作员做出明智的决策并采取行动。”舒尔茨补充说,人工智能在实时入侵检测中特别有用。基于AI的系统可以检测、阻止和隔离威胁,然后可以返回并进行取证调查,以确定到底发生了什么以及黑客能够利用哪些漏洞。在安全运营中心(SOC)工作的安全专业人员经常被警报淹没,但基于AI的系统可以扫描大量遥测和日志信息,清理日常任务并腾出安全专家的时间来处理更深入的调查。基于AI的工作负载优化在应用层,AI有可能自动将工作负载移动到适当的着陆点,无论是本地还是云端。“未来的AI/ML应该根据性能、成本、治理、安全、风险和可持续性等众多规范,实时决定将工作负载放在何处。例如,工作负载可以自动转移到最强大的运行Bizo说,AI系统可以将性能数据纳入等式,因此时间敏感的应用程序可以在高效的服务器上运行,同时确保不需要快速执行的应用程序不会使用基于AI的工作负载优化引起了麻省理工学院研究人员的注意,他们去年宣布他们已经开发出一种AI系统,可以自动学习如何在数千台服务器上安排数据处理操作。但是,作为Bushong指出,现实是今天的工作负载优化是亚马逊、谷歌和Azure等超大规模企业的专利,而不是一般的企业数据中心。原因有很多。实施AI优化和自动化数据中心的挑战是正在进行的数字化转型计划的一个组成部分。戴尔的Tabet补充说:“对于COVID-19,许多公司现在都在寻求进一步的自动化,推动人工智能驱动、自我修复的‘数字数据中心’概念。谷歌在2018年宣布,它已将其几个超大规模数据中心的冷却系统的控制权切换到人工智能程序,该公司报告说,人工智能算法提出的建议导致能源使用减少40%。不过,Bizo表示,对于那些名字不是谷歌的公司来说,在数据中心使用人工智能“很大程度上是一种愿望”。一些AI/ML功能可用于事件处理、基础设施健康和冷却优化。但是,与当前标准数据中心基础设施管理(DCIM)相比,AI/ML模型需要更多年才能实现更重大的突破。就像自动驾驶汽车的开发一样,早期阶段可能很有趣,但它最终承诺的突破与经济/商业案例相去甚远。”根据Tabet的说法,一些障碍是“需要雇用或培训合适的人员来管理系统。另一个需要注意的问题是对数据标准和相关架构的需求。”Gartner是这样说的:“AIOps平台成熟度、IT技能和运营成熟度是主要障碍。高级部署面临的其他新挑战包括数据质量和“IT基础架构和运营团队”缺乏数据科学技能。Bushong补充说,最大的障碍一直是人。他指出,外包数据科学家对许多企业来说是一个挑战,也是培训现有员工的障碍。此外,Bushong说,员工对技术的抵制由来已久。他指出,软件定义网络(SDN)已经存在了十年,但超过四分之三的IT运营仍然由CLI驱动。“我们必须相信,各种基础设施的运营商已经准备好将控制权交给人工智能,”Bushong说。“如果一群人还不相信空中交通管制员可以做出决定,你如何培训、教育和安慰他们做出如此重大的转变?业内普遍的态度是,如果我这样做,我就会失业。”这就是为什么Bushong建议公司在AI中采取那些小而乏味的步骤,而不是陷入通常围绕新技术的炒作中。