如今,数据中心关键设施的运维(O&M)与复杂站点的工程和设计阶段一样重要。随着关键基础设施的稳健性和相关复杂性不断提高,提高了容错能力和并发维护能力,建立强大的运营管理实践来管理数据中心设施变得越来越重要。研究表明,60%或更多的关键任务“破坏性事件”与员工行为有关。此活动包括关键系统的例行切换和重新配置、维护任务,当然还有人为错误。支持数据中心持续运营所需的人员和流程必须在其开放的第一天就位,并且必须持续到关键业务运营的最后一天。这要求在设施开始运营之前就开始努力建立这些流程,最好是在场地规划和需求定义阶段。数据中心设计注意事项提高关键数据中心设施的高可用性通常需要部署复杂的冗余方案,例如2N、2(N+1)甚至2(N+1)/3配置。即使关键设备或系统发生故障,也需要足够的冗余来支持不间断的操作。但是,如果受影响的基础设施没有足够的措施来隔离故障设备,并且随后无法在继续运行期间访问、维修或更换设备,则仍然可能会发生中断。这意味着在数据中心设施的整个生命周期内保持关键操作的要求必须包含在操作开始之前的设计和施工中。这称为可维护性设计。数据中心设施的建设、启动和调试。完美的规划设计不等于施工时的完美设计。施工过程需要严格的监督和质量控制,施工过程中需要经常进行现场进度检查。此外,全面的启动和测试必须由合格的技术人员进行,以便在设备获得认证准备好开始关键操作之前进行正式的验收测试。此过程称为调试,还包括确保为项目配备适当的人员,并为员工提供现场特定培训和准确的现场文档。正式调试在设计阶段开始(如果不是更早的话),以审查可施工性、可维护性并确保设计意图(基于设计文档)满足业主对设备性能的要求和期望。调试还包括不同级别的测试和验证,包括工厂验收测试、发货和接收要求、现场进度检查、功能和功能性能测试,最后是集成系统测试。现场运维人员应全程参与调试,贯穿施工、开车和验收测试全过程。这为操作和维护人员提供了宝贵的、有时是独特的机会,让他们可以参与他们可以学习在未来关键操作中负责的活动。没有比现在更好的机会来获得实践培训并深入了解特定站点的细微差别了。组织指派的操作和维护关键设施的操作和维护人员以及员工应具有与过程的任何其他方面相同的远见、考虑和关注。网站上线前应确定、组织和培训运维人员。一些重要的考虑因素是运营和维护站点需要哪些技能?这个部门应该向谁汇报?员工将负责什么以及将外包什么,包括服务水平协议?第一个问题应该是:“组织的运营和维护,你将如何区分为关键基础设施提供O&M服务的员工,或者如何组织以涵盖所有关键和非关键O&M活动?”理想情况下,专职员工被指派为独立员工.持续运营需要时刻保持警惕并专注于关键的7/24持续运营系统。虽然某些事件可能很紧急,尤其是当它们位于高度可见的位置时,并且可能会分散员工的注意力,但他们应该完全专注于关键运营。同样,不应该在关键的运营和维护预算上争夺稀缺资源,其中可能包括办公用品、景观美化和其他必要的费用。运营和维护流程关键设施的运营和维护不仅仅是一套程序。它是一种战略,应包括明确的目标和目标、明确的角色和职责,以及组织专注于持续运营,并有足够的资源来实现目标。数据中心什么时候最脆弱?夜间和周末是否难以联系到承包商、供应商和零件?或者在工作日期间,停电最可能造成的影响是什么?显然,答案与数据中心的使命有关。如果数据中心确实在正常营业时间内支持更有价值的业务活动,或许会有答案。另一方面,如果数据中心有真正的24/7任务,那么周一上午9点并不比周六晚上9点更重要。这些问题的答案可能会产生更多的问题。例如,运营商将在哪里存储关键备件?它们是否需要环境调节或日常维护?数据中心是否需要行业专家来管理复杂的监控系统,或者操作系统需要什么?哪些备件将被视为关键且需要现场维护?需要哪些工具、设备和库存?是否会使用计算机化维护管理系统?如果使用,谁来构建和配置它?通用数据中心设施的维护程序也千差万别,关键设施趋于高端。大多数数据中心设施都有一定程度的计划维护。基于时间间隔或频率的例行任务称为预防性维护。例如,对于特定设备,可能需要每月检查一次、每半年检查一次传送带并进行调整、每六个月更换一次过滤器以及每年进行一次内部清洁、对准检查和传感器校准。这里的缺点是任务的发生与实际操作条件无关。这些方案可以根据实际设备运行时间进行改进,但仍未考虑实际运行情况。一项改进是实施基于状态的监测技术,以允许根据实际操作条件进行维护。一个简单的例子是使用压差传感器来监测过滤条件。当过滤器加载时,Δ-P增加,需要在适当的时候更换过滤器。当使用这些状态监测技术并且数据趋势化时,操作员可以提前预测何时需要维护。这称为预测性维护。可以将阈值分配给警报和警报条件,并且通过分析趋势,可以预测何时会超过阈值甚至预测故障。状态监测技术的一些技术包括振动分析、摩擦学(润滑分析)和红外热扫描。这些技术可以揭示设备在线时的健康状况,而无需停机或中断维护。结论数据中心设施运行和维护的所有方面都必须在站点需求的开发早期得到考虑。否则,可能会失去将必要的O&M要求嵌入到数据中心设施的设计和建设中的机会。很明显,由于当今设计、建造和使用在线关键设施需要巨大的资本投资,并且鉴于与这些数据中心设施相关的任务的重要性,员工、程序和资源等将被委托运营和在数据中心的预期使用寿命内维护数据中心。
