今天,人为错误是数据中心的主要业务中断问题,比许多人意识到的还要严重。研究表明,人为错误占数据中心所有停机时间的60%到80%。然而,FORTRUST首席运营官RobertMcClary认为,人为错误是数据中心意外中断的最重要原因之一,并制定了减少数据中心人为错误的策略。客户可以从他们的数据中心和托管服务提供商那里寻找一些行为和政策,这些行为和政策可以证明供应商对消除人为错误的承诺。“过程控制和程序的全面文档记录至关重要,因为许多计划外停机事件都是人为错误的结果,”McClary说,“使用记录、验证和可重复的过程来创建操作、服务交付和维护的标准化方法,同时减轻或消除与人为错误相关的风险。”(1)稳健的流程和文档在FORTRUST发布的《数据中心最大可靠性操作指南》中,McClary建议不仅要确定具体的操作流程控制和程序,还要制定强有力的策略来记录此活动。这样,在数据中心内执行的每个操作过程都应遵循已记录、经过验证且经过良好实践的程序。虽然数据中心经理和员工需要花费一些时间和精力来创建、记录和维护这些程序,但这种方法带来了巨大的好处。除了减少人为错误外,建立适当的程序库还可以鼓励一致性,支持持续培训和学习,并帮助员工建立知识库。这一切都有助于确保永远不会出现问题。(2)培训员工以确保他们具备必要的技能。数据中心人员拥有保持数据中心正常运行所需的技能也很重要,在停机前查明和处理任何问题也很重要。某些技能至关重要,而其他技能则可以随着时间的推移而教授。总体而言,数据中心人员应了解电气和机械系统的基础知识、数据中心系统之间的相互关系以及如何解决此类环境中可能出现的常见问题。此外,工作人员应具备良好的解释和分析解决问题的能力。为建立一致的知识库,服务提供商还应定期培训其员工。McClary指出,许多数据中心设施运营商只提供短期的在职培训,但不一定是长期的。培训必须是连续的,每个员工都应对自己的教育和能力负责。形成文件的流程和程序为培训工作提供了基础。随着知识范围的不断变化和扩大,额外的培训确保了对每个工人的角色、职责和所需技能的敏锐理解。(3)检查和演练数据中心工作人员花时间体验和检查数据中心设施中的所有关键系统是至关重要的。这些演习可以与培训工作相结合,以帮助员工识别关键组件和可能出现的任何问题。数据中心经理应该利用他们的检查来制定一些文件化的程序来帮助指导这些工作。这包括演练过程中应检查的项目列表、工作人员应记录的具体参数以及在参数结果中应采取的步骤。McClary指出,虽然这些演习当然需要时间,但它们也可以帮助工人识别容易纠正的问题并防止以后出现更大的问题。总体而言,防止人为错误的关键因素需要制定正确的策略和程序、培训员工并花时间检查关键系统。这三种方法对于那些致力于高效稳定的数据中心运营的人来说至关重要。
