为什么数据中心需要更好的预警系统来降低热失控的风险操作敲响了警钟。高温不可避免地给数据中心带来了冷却挑战,随着英国从2002年开始有记录以来最热的十年,数据中心冷却策略显然要求组织为夏季高温带来的任何问题做好准备。鉴于冷却问题仍然占计划外数据中心停机时间的近三分之一,数据中心风险规划必须考虑温度升高的影响。不幸的是,大多数组织似乎仍然没有意识到数据中心过热的风险,这种风险会很快使数据中心的运营面临风险。冷却问题现在是数据中心服务中断的第二大主要原因,组织通过优化冷却性能来降低这种风险至关重要。识别早期预警信号热失控问题可能会在短时间内发生,即使对于经验丰富的数据中心运营团队也是如此。冷却设备故障很容易升级为热失控情况,使24/7全天候数据中心面临停机风险。调查发现,主要原因之一是BMS等现有解决方案在及时检测热失控方面不是很有效。冷却和气流问题通常不会过早触发楼宇管理系统(BMS)警报,因为不存在重大服务水平协议(SLA)违规或故障。但一旦触发,就为时已晚,结果是热问题会迅速升级,在数据中心运营团队解决问题之前产生影响整体性能的局部数据中心热点。不要等待警报,需要更主动的方法。组织需要防止潜在的热失控故障。通过人工智能和机器学习技术,现在可以采用与BMS系统并行工作的软件解决方案来识别和管理数据中心的热失控风险。.借助这种实时热监控技术,可以跟踪冷却输出并及早发现性能不佳的冷却系统,以便及时进行改进。在这里,数据中心机架和精密空调监控对于发现典型冷却系统和BMS系统不可见或隐藏但很容易修复的冷却和气流问题至关重要。A公司为数据中心开发了关键监控系统,现已能够完成关键基础设施的远程热失控风险预测分析。在最近的一个示例中,关键监控系统的软件和分析功能被用于远程识别异常热失控行为、远程诊断问题并建议如何减轻热失控影响。所有这些都在BMS系统检测到问题之前完成。A公司发布的视频演示了基于预测分析的方法如何为数据中心设置预防故障所需的预警功能。在此示例中,具有正常且稳定的冷却负载曲线的数据中心由于精密空调的故障而迅速变得温度不稳定。时间线如下:软件分析解决方案利用精密空调中EkkoAir冷负荷传感器的性能数据来识别精密空调的异常行为。软件分析解决方案可以识别出制冷效果不佳的精密空调。如果精密空调出现问题,软件分析解决方案提供局部热点预警。软件分析解决方案还显示,其他精密空调虽然仍在运行,但无法消除热点。软件分析解决方案建议关闭发生故障的精密空调以消除再循环热空气。一旦采取行动,热点立即得到解决。精密空调问题已调查解决,恢复正常制冷运行,并通过软件分析解决方案进行确认。在此过程中,现有BMS绝不会生成警报,因为不会触发特定组件故障或警报阈值。此示例展示了分析解决方案的早期风险检测分析功能如何在最终出现故障之前识别和诊断性能不佳的冷却设备,从而消除热失控的潜在风险并实现及时修复。它还说明了BMS系统不生成警报,这意味着如果没有额外的预测分析,数据中心团队将不会意识到故障或定位故障。通过数据中心的整体视图,关键分析软件可以捕捉到细微的变化,例如设定点的变化、阀门卡住或格栅移动,这些都可能导致更广泛的热失控问题。热失控前的预警传统的BMS方法仅在系统出现故障或超过阈值时才生成警报。A公司结合高粒度感知和关键实时算法,可以在潜在设备故障发生之前将其突出显示,从而不影响数据中心服务的可用性。只有100%消除数据中心运行的热失控风险,为后续的散热优化项目提供稳定的平台,数据中心管理者才能真正实现热失控管理。
