当前位置: 首页 > 科技观察

人工智能和机器学习将如何改变数据中心运营的游戏规则?_0

时间:2023-03-20 02:10:31 科技观察

今天的数据中心面临着似乎几乎无法解决的挑战。虽然数据中心运营从未如此繁忙,但作为企业碳减排目标的一部分,数据中心运营团队面临着降低能源消耗的压力。而且,急剧上涨的电价给数据中心运营商带来了预算压力。由于数据中心专注于支持人们在工作和生活中日益需要的基本技术服务,因此数据中心运营如此繁重也就不足为奇了。在没有放缓迹象的推动下,我们看到与视频、存储、计算需求、智能物联网集成和5G连接的推出相关的数据使用量大幅增加。然而,尽管工作量不断增加,但不幸的是,如今许多数据中心设施的运行效率不够高。鉴于数据中心的平均工作寿命超过20年,这并不奇怪。效率始终取决于数据中心设施的原始设计,并基于早已超出的预期IT负载。同时,变化是常态,平台、设备设计、拓扑结构、功率密度和冷却要求都随着新应用的发展而变化。结果是全球的数据中心经常发现很难将当前和预计的IT负载与其关键基础设施相匹配。随着数据中心需求的增加,这种情况只会加剧。根据分析师的预测,从现在到2025年,数据中心的工作负载将继续以每年20%左右的速度增长。传统的数据中心技术和方法正在努力满足这些不断升级的需求。优先考虑可用性在很大程度上是以牺牲效率为代价的,太多仍然依赖于操作人员的经验并相信假设是正确的。不幸的是,有证据表明该模型不再适用。根据远程传感器监控提供商EkkoSense的研究,数据中心平均有15%的IT机架在ASHRAE的温度和湿度指南之外运行,而效率低下甚至会导致高达60%的数据中心冷却能耗。.这是一个主要问题,据UptimeInstitute估计,由于冷却和气流管理效率低下,全球数据中心估计损失了180亿美元的能源。这相当于浪费了大约1500亿度电。数据中心基础设施所用能源的35%用于冷却,很明显,传统的性能优化方法正在错失实现效率提升的巨大机会。根据EkkoSense的研究,三分之一的计划外数据中心中断是由过热问题引起的。因此,找到不同的方法来管理这个问题可以为数据中心运营团队提供确保可用性和提高效率的好方法。传统监控技术的局限性不幸的是,目前只有大约5%的运营团队监控和报告每个机架上数据中心设备的温度。此外,DCIM和传统监控解决方案可以提供趋势数据并设置为在发生故障时提供警报,但这些措施还不够。他们缺乏分析技能来深入了解问题的原因以及如何在未来解决和避免这些问题。运营团队认识到这种传统的监控技术有其局限性,但他们也知道他们根本没有资源和时间来获取他们拥有的数据并对其进行分析以获得有意义的见解。好消息是,现在可以使用技术解决方案来帮助数据中心解决这个问题。现在是数据中心与机器学习和人工智能相结合的时候了机器学习和人工智能的应用创造了数据中心运营处理方式的新范式。运营团队现在可以利用机器学习来收集更精细的数据,而不是被过多的性能数据淹没——这意味着他们可以开始实时访问其数据中心的性能。关键是使其易于访问,使用智能3D可视化是使数据中心团队更容易在更深层次上解释性能和数据的好方法:例如显示变化和突出显示异常。下一阶段是应用机器学习和人工智能分析来提供可操作的见解。通过使用机器学习算法增强测量数据集,数据中心团队可以立即受益于易于理解的洞察力,以帮助支持他们的实时优化决策。每五分钟一次的实时粒度数据收集与人工智能/机器学习分析相结合,使操作人员不仅可以查看数据中心设施中发生的情况,还可以找出原因以及应该采取的措施。人工智能和机器学习支持的分析还可以揭示建议关键领域的可操作更改所需的见解,例如最佳设置点、地板网格布局、冷却设施操作和风扇速度调整。热分析还将揭示安装机架的最佳位置。而且,由于AI支持实时可视化,数据中心团队可以快速获得有关已实施的任何更改的即时性能反馈。人工智能和机器学习助力数据中心运营鉴于减少碳排放和最大限度降低电价上涨影响的压力,数据中心团队需要新的优化支持才能实现其可靠性和效率目标。利用最新的机器学习和人工智能驱动的数据中心优化方法肯定可以通过减少冷却能源和使用来产生影响——在几周内立竿见影。通过将粒度数据置于优化计划的最前沿,数据中心团队不仅可以消除过热和电源故障的风险,还可以确保冷却能源成本和碳足迹平均减少30%。很难忽视这种成本节约的潜在影响,尤其是在电价快速上涨的时期。权衡风险和优化可用性的日子已经一去不复返了,人工智能和机器学习技术将处于数据中心运营的最前沿。