当前位置: 首页 > 科技观察

如何使用AI创建自动化数据中心

时间:2023-03-14 21:56:01 科技观察

如今,大多数关于人工智能(AI)的讨论都集中在自动驾驶汽车、聊天机器人、数字双胞胎、机器人技术以及基于AI的智能系统的使用上数据集。但人工智能和机器学习将在企业数据中心的服务器中发挥重要作用。人工智能在提高数据中心效率和扩展业务方面的潜力可分为四大类:电源管理:基于人工智能的电源管理可以帮助优化加热和冷却系统,从而降低电费、减少工人数量并提高效率。该领域的代表性供应商包括施耐德电气、西门子、维谛技术和伊顿。设备管理:人工智能系统可以监控服务器、存储设备和网络设备的健康状况,检查以确保人工智能系统配置正确,并预测设备何时会出现故障。据研究公司Gartner称,AIOpsIT基础设施管理(ITIM)类别的供应商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。工作负载管理:人工智能系统可以实时自动将工作负载转移到更高效的基础设施,包括数据中心和混合云环境,在本地、云和边缘计算环境之间。越来越多的中小型企业提供基于AI的工作负载优化服务,包括Redwood、TidalAutomation和Ignio。Cisco、IBM和VMware等主要供应商也提供此类产品。安全性:人工智能工具可以了解正常的网络流量是什么样子的,发现异常情况,优先考虑需要安全从业人员注意的警报,帮助进行事件后分析,并为企业安全漏洞的防御措施提供建议。提供此功能的供应商包括VectraAI、Darktrace、ExtraHop和Cisco。总而言之,人工智能可以帮助企业创建高度自动化、安全、自我修复的数据中心,这些数据中心几乎不需要人工干预,并且能够以更高的效率和弹性运行。DellTechnologies全球首席技术官办公室杰出工程师Tabet解释说:“AI自动化可以超越人类的能力来解释数据并收集优化能源使用、分配工作负载和最大化效率所需的必要见解,以实现更高的数据中心资产利用。”就像自动驾驶汽车的承诺一样,自动驾驶数据中心尚未实现。人工智能在数据中心应用的突破存在许多技术、运营和人为障碍。如今,虽然人工智能技术的采用才刚刚起步,但潜在的好处将使一些企业不断寻找行动的机会。电源管理利用服务器工作负载管理据估计,数据中心消耗了全球3%的电力,并产生了约2%的温室气体排放。因此,无论是为了节约成本,还是为了节能环保,很多企业都在认真研究数据中心的电源管理。451Research高级分析师DanielBizo表示,基于AI的系统可以帮助数据中心运营商了解当前或潜在的冷却问题,例如由于高功率密度机柜阻塞气流导致的冷空气输送不足、精密空调机组性能不佳,或者冷热通道之间的冷空气输送不足。Bizo说,人工智能系统可以通过将来自精密空调系统的数据与来自环境意识的读数相关联来了解设施。IT咨询和咨询公司StorageIO的创始人GregSchulz补充说:“电源管理是一个唾手可得的成果。它意味着让电源设备更智能地工作。”企业也有能力规划的角度。除了寻找热点和冷点外,AI系统还可以确保数据中心为适当数量的物理服务器供电,并能够在出现临时功率峰值时启动和关闭新的物理服务器要求。Schulz补充说,电源管理工具正在开发与管理设备和工作负载的系统的连接。例如,如果传感器检测到服务器运行过热,人工智能系统可能会快速自动将工作负载转移到未充分利用的服务器上,以避免可能影响关键任务应用程序的潜在中断。AI系统随后可以调查服务器过热的原因、风扇是否出现故障(HVAC问题)、物理组件即将崩溃(设备问题)或服务器刚刚过载(工作负载问题)。人工智能驱动的健康监控、配置管理监督数据中心有许多需要定期维护的物理设备。AI系统可以帮助数据中心的定期维护,收集和分析遥测数据以识别需要立即关注的特定区域。“人工智能工具可以探测所有这些数据和异常值,”舒尔茨说。监控数据中心健康状况始于检查设备配置是否正确并按预期运行。由于大型数据中心可能拥有数千个IT机柜和数万个组件,这些工作属于劳动密集型工作,因此并不总是能够及时、彻底地执行。他指出,基于大量传感数据日志的预测性设备故障建模可以发现即将发生的组件或设备故障,并评估是否需要立即维护以避免任何可能导致服务中断的容量损失。瞻博网络企业和云计算营销副总裁MichaelBushong认为,企业数据中心运营商应该忽略一些与人工智能相关的过度宣传和炒作。Bushong说,“也许有一天,人工智能系统可能会告诉工作人员哪里出了问题并加以解决。”解决。依赖映射在人工智能可以发挥作用的领域也很重要。如果数据中心经理正在对防火墙或其他设备进行策略更改,会产生哪些意想不到的后果?如果我提出更改,可能会有更改非常有用。保持设备平稳安全运行的另一个重要方面是控制所谓的配置漂移,这是一个数据中心术语,指的是随着时间的推移可能会导致问题的临时配置更改。人工智能可以作为额外的安全检查来识别即将发生的基于配置的数据中心问题。人工智能和安全Bizo认为,人工智能和机器学习可以通过快速对事件进行分类和聚类来识别重要事件并将它们分开,从而简化事件处理(事件响应)。更快的根本原因分析有助于操作员做出明智的决策并采取行动。舒尔茨补充说,人工智能在实时入侵检测中特别有用。基于AI的系统可以检测、阻止和隔离威胁,然后可以对其进行调查以进行取证,以确定到底出了什么问题。在安全运营中心(SOC)工作的安全专业人员经常被警报淹没,但基于AI的系统可以扫描大量遥测数据和日??志信息,从而清除日常任务,从而让安全专家腾出时间来处理更深入的调查。基于AI的工作负载优化在应用层,无论是本地还是云端,AI都有潜力自动将工作负载转移到合适的登陆点。Bizo说:“在未来,人工智能和机器学习对于根据与性能、成本、治理、安全、风险和可持续性相关的众多规范来放置工作负载应该至关重要。”做出实时决策的地方。“例如,工作负载可以自动转移到节能服务器上,同时确保服务器以最高效率运行(70%到80%的利用率)。人工智能系统可以将性能数据纳入其中,因此时间敏感的应用程序可以运行在高效的服务器,同时确保不需要快速执行的应用程序不会消耗太多能量。基于AI的工作负载优化引起了麻省理工学院研究人员的注意,他们去年宣布开发了一种AI系统,该系统可以自动学习如何在数千台服务器上安排数据处理操作。但是,正如Bushong指出的那样,现实情况是,今天的工作负载优化是亚马逊、谷歌和Azure等超大规模企业的首要任务,而不是企业数据中心。这件事情是由很多原因导致的。实施人工智能的挑战优化和自动化数据中心是正在进行的数字化转型计划的一个组成部分。戴尔的Tabet补充说:“由于大流行,许多组织正在寻求进一步的自动化,推动了人工智能驱动的能够自我修复的‘数字数据中心’的想法。”谷歌在2018年宣布,它已将其在超大规模数据中心的几个冷却系统控制转移到人工智能程序,该公司报告称,人工智能算法提出的建议已将能源使用减少了40%。但对于许多企业来说,在数据中心采用人工智能技术是非常有野心的。“一些人工智能和机器学习功能可用于事件处理、基础设施健康和冷却优化,”Bizo说。更多的突破,这将需要数年时间。”Tabet说,“一些障碍是需要雇用或培训合适的员工来管理系统。另一个需要注意的问题是对数据标准和相关架构的需求。AIOps平台的成熟度、IT技能和运营成熟度是主要障碍。高级部署面临的其他新挑战包括数据质量以及IT基础设施和运营团队缺乏数据科学技能。”Bushong补充说,最大的障碍一直是员工。他指出,招聘数据科学家对许多企业来说都是一项挑战,培训现有员工也是如此。许多员工长期以来一直抵制让他们无法控制的技术。他指出,软件定义网络(SDN)技术已经存在10年了,但超过75%的IT操作仍然是命令行界面(CLI)驱动的。“许多人认为,各种基础设施的运营商已准备好将控制权移交给人工智能,”Bushong说。这也是布松建议企业向人工智能方向发展的原因。