当前位置: 首页 > 科技观察

为什么AI需要一段时间来管理数据中心

时间:2023-03-16 22:15:19 科技观察

虽然超大规模企业已经在使用AI来改善运营,但大多数其他数据中心的集成度还不够高,无法使其发挥作用。数据中心管理的工作瞬息万变。混合环境和多云需要处理、边缘计算以及快速发展的网络安全威胁的持续冲击。人工智能有望解决他们面临的所有复杂问题。自学习系统将自我适应快速变化的环境,抵御已知和未知的威胁,以超人的准确度即时响应,并且以极低的成本完成这一切。由于孤立的系统和缺乏集成的管理平台,目前还没有,而且可能不会持续太久。EYAdvisoryServices董事总经理AmrAhmed表示,数据中心的复杂性正在呈指数级增长。过去,一家公司可能只有一台大型机。然后,通过客户端-服务器,环境增长到数十、数百或数千台机器,他说。“分布式环境——数十万;虚拟化——数百万;云——数千万。”这超出了人类的管理能力。“人工智能是必不可少的,”他告诉DCK。“没有办法解决它。这不是一个选择。它不是可选的。”一段时间以来,最大的云提供商、超大规模提供商一直在将机器学习(一种人工智能)应用于这种规模问题。“预测故障、自动化工作负载转移——这些事情在未来十年内不会发生,”他说。“它已经存在了。云服务提供商已经在他们的云环境中使用它。这就是他们大规模提供服务的方式。”多年来,高级分析一直在使用,尤其是在数据中心的电力和冷却方面。降低能源成本。“有很多工具可以分析这些数据并做出决策,”艾哈迈德说。当AI可以帮助提高数据中心的正常运行时间时,这是一个显而易见的好处——也是大型数据中心运营商关注的一个重要领域。凯捷人工智能和分析副总裁DanSimion表示,人工智能和机器学习可用于预测关键任务故障,避免意外的系统和服务故障或数据中心中断。“这种方法创造了一种自我修复机制,”他告诉DCK。他补充说,虽然大数据中心提供商处于领先地位,但高科技公司也可能会从头开始构建这种类型的AI系统,如果它在他们的驾驶室中。他说,数字化程度最高的公司已经看到了人工智能投资的价值,拥有大型数据中心的公司也是如此。人工智能需要态势感知对于较小的数据中心,开始部署人工解雇的最简单方法是依赖技术供应商。然而,这种方法有局限性,因为它很难处理相互依赖性和业务环境。为了最有效,人工智能需要态势感知。对于仅限于单一供应商的产品及其功能的AI系统,这很难做到。“当我看到我的网络、计算或用电量出现峰值时,这可能与我的员工队伍发生变化有关,”艾哈迈德说。例如,更多人可以在家工作。这可能是由于推出了一个主要的平台升级-或者是一些邪恶的东西。“添加该业务环境会增加第三个维度的复杂性。”大多数供应商仍处于向单个产品添加人工智能和机器学习功能的早期阶段。例如,产品可能会针对异常活动(机器学习最常见的用例之一)提供警报,但除此之外就不多了。更高级的提供商可以提供预测分析、行动建议,甚至是问题的自动修复。一种更全面、更有效的人工智能方法是领域不可知的,从所有系统中提取数据。在大多数情况下,实现此功能还为时过早。首先,通常存在组织障碍。“这一切都在孤岛中,”艾哈迈德说。“有网络团队,有管理它的基础设施团队,还有管理它的运营团队。将它们整合在一起并使用AI和ML来理解它需要时间。”在单个系统上部署AI工具更简单,但一些组织开始采用更集中的方法。“他们正在改变他们的运作方式,”他说。尽早奠定基础有远见的数据中心经理在设计系统时将AI考虑在内。一个有吸引力的用例是预测设备何时可能会提前发生故障,以便在导致数据中心停机之前对其进行维修或更换。美国主要数据中心提供商QTSRealtyTrust的产品首席技术官BrentBensten表示:“供应商正在谈论人工智能或机器学习的这种必杀技,以预测何时会发生故障。”这种能力需要跨不同系统的整体视图,而这种视图仍然很难获得。要确定设备何时可能发生故障,您可能需要温度数据、使用历史记录、功耗数据等。“隔离使事情变得困难,”本斯滕说。“除非你能将系统与其他系统融合并使它们变得更智能,否则人工智能和机器学习不会强大。这就是我的观点。”在过去的四年里,QTS一直在投资统一平台以满足其基础架构管理需求。他说。“我们把它们都拿来,把它们合二为一,然后我们就可以在它上面做人工智能和机器学习。”