维护对于确保关键任务数据中心的可靠性至关重要,但在带电设备上执行的任何工作都可能使数据中心人员面临风险。运营商可以将某些硬件维护工作转交给内部员工,并将更复杂的系统和设施转交给第三方服务提供商,以避免代价高昂的误用或计划外停机。专业的数据中心维护人员知道如何让被维护的硬件设备正常运行,并在不发生意外的情况下关闭不必要的设备。内部员工可能同样谨慎,但执行这些任务或维护组件可能超出了他们的正常工作或专业知识范围。并非每个数据中心都是一样的,数据中心运营商并不总是手头有足够或经验丰富的技术人员。为确保每次都能更好地进行维护,需要编写一份书面检查表供技术人员遵循,以及供任何服务提供商查看的文档。在使用第三方维护服务之前,仔细检查任何认证要求也是值得的。保持数据中心凉爽机房空调是容易发生故障的机械设备,因此需要定期维护。对于内部员工,更换过滤器和维护冷却器、冷却塔、节能器或干式冷却器应该是例行公事。数据中心空调(CRAC)和空气处理器(CRAH)被归类为精密空调。数据中心设施人员可以检查皮带运行情况和制冷剂水平,而空调制造商的认证服务人员将这些组件用作数据中心日常维护的一部分。现代设备具有传感器,可提供技术人员分析以检测即将发生的故障的读数。小的轴振动可能是一个关键指标,但未经培训的人员可能无法理解。如今,数据中心的冷却系统越来越复杂,其中一些包括直接驱动风扇和带有自动调节容量的变频驱动器的压缩机。此外,数据中心还部署了机房空调(CRAC)和机房空气处理器(CRAH),冷却器安装在上方或并排安装。液冷越来越普遍,有的处理器采用后门热交换甚至液冷直冷处理器技术。集成控制系统可以将这些组件整合在一起,并且需要技术人员进行定期监控,这会给数据中心维护带来更多的工作量和风险。电力和电气系统的处理为了检测设备是否过热,专业人员应对电气系统进行年度红外扫描。这需要打开带电设备并对其进行操作,因此技术人员必须穿着防护服以防止潜在的电弧闪光。做这些工作需要经验丰富的工人,不会造成伤害。数据中心的供电系统一般采用UPS供电,当供电出现故障时,部分电池很可能出现故障。电池的维护和更换需要经过培训和认证的专业人员,因为电池开路端子短路会导致人身伤害。UPS电池有几种主要的电池类型:阀控式铅酸电池是最常见的类型,但它们通常只能使用三到五年。锂离子电池是最新类型,可能会持续更长时间,但存在材料性能和安全性问题,一些数据中心已禁止在建筑物中使用锂离子电池。传统的铅酸电池可以使用25年,但需要特殊的房间设置和定期的酸液位检查。数据中心人员需要对电池采取监控措施。一些UPS电源具有内置仪表并提供额外的硬件选项。飞轮UPS非常可靠,但需要在使用10年内更换轴承。然而,其电动发电机组和备用发电机是需要定期维护的机械设备。即使人员不愿意中断市电查看UPS电源是否正常工作,也应该在实际负载条件下对UPS进行测试。专业人士使用模拟负载来模拟数据中心设备,因此他们可以看到UPS电源是否可以支持带电负载或必须更换。用作备用电源的柴油发电机中的自动转换开关需要定期维护,但很少处理,因为可能没有安装旁路开关。如果没有旁路开关,自动转换开关就无法在不转移带电负载的情况下进行测试,因此它可能是电源链中最脆弱的部分。使用红外扫描进行数据中心检查需要此组件。维护消防装置的火灾探测和灭火系统在维修时会带来一定的风险,因此任何维修都应由经过认证的专业人员进行。数据中心维护期间,无论是水基还是气基的消防设备都必须关闭,以防止触发警报或关闭整个数据中心。维护人员必须检查基于气体的消防系统的液位和压力,必须验证气体系统的控制系统运行,并且必须测试所有类型的探测器以确保它们仍然正常运行。此外,必须清洁早期烟雾探测系统吸入管道中的小孔,以清除可能激活高度敏感的消防系统的灰尘和障碍物。在进行控制功能测试之前,必须先断开紧急断电开关(操作这个“红色按钮”可以瞬间切断整个数据中心的电源)。关闭和测试必须由专业人员完成,因为他们拥有安全检查每个消防系统的认证和专业知识。全面测试消防系统的唯一方法是实际操作它,这是不切实际的。测试和维护必须尽可能接近激活状态,而无需实际激活消防系统,这需要专业知识和技能。保持设施清洁如果没有适当的冷却,数据中心硬件会关闭以保护自身。通常,原因仅仅是灰尘和颗粒积聚在小过滤器和内部散热器上。无论工作人员在清洁设备和及时关闭门和设施方面多么谨慎,细颗粒物仍可能被工作人员带入设施。仅仅拖湿地板并不能使数据中心保持清洁。专业的数据中心清洁服务知道如何在不中断冷却的情况下清洁高架地板,如何在不停机的情况下清洁服务器过滤器,以及使用专用设备去除数据中心设施所有组件中的颗粒。作为数据中心维护的一部分,大多数关键数据中心每年都会与第三方签订专业清洁合同。即使您没有计划执行清洁服务的频率,您的数据中心也应该至少每年清洁一次。
