数据中心中断继续困扰着IT员工。执行数据中心调试或审计,并采用可靠的电源设计来保护您的组织免受停机影响。美国联合航空公司、达美航空公司和西南航空公司以及许多其他知名公司最近都在其主要数据中心遭遇了中断。而他们过度公开的关机处理又为IT经理的问题清单增添了另一个烦恼。据报道,许多数据中心事故都是由电源故障引起的,这并不奇怪。根据UptimeInstitute的研究,发动机发电机系统是数据中心的主要电源,公用电源应该是经济的选择。然而,公用事业停电“不被视为故障,而是相关站点必须做好准备的预期操作条件。”也就是说,这种停电情况很可能发生在大多数企业数据中心。对于在其职业生涯中一直担心此类事情的CIO们来说,这可能是一个为一些所需的改进提供资金的机会。但是,请注意:简单地添加冗余设备并不是解决问题的办法。关键任务数据中心电源设计挑战企业数据中心的最大漏洞是隐藏缺陷和安装错误。简单地复制设备和真正的关键任务设计之间的区别是巨大的。然而,检查数据中心电源设计的潜在故障点是一个艰巨的过程。考虑聘请高素质的独立专家为您的组织执行此任务。您可以通过设计和安装不断关注新的或更新的设施,但另一个问题是在使用现有设施时修复错误。当您纠正漏洞时,您的操作暴露可能会导致事故。但即使您不进行风险纠正,也要了解潜在故障可能出现的位置,以最大限度地降低数据中心中断的风险。记录最详尽的停电事件之一发生在旧金山的365Main。公司拥有冗余的不间断电源(UPS)系统和发电机,以满足客户对不间断电源的期望。但在2007年7月24日,墨菲定律不请自来。首先是电源故障。数据中心的UPS一直保持供电,直到发电机启动。但不久之后,这些发电机一台接一台地关闭,导致数据中心中断,影响了该公司的高端客户数小时。尽管数据中心拥有可靠的电力系统设计,但数据中心运营商并未进行调试测试以揭示发电机控制固件中的问题。管理员不是反复测试故障并在负载下重新启动引擎,而是依赖备用电源和冗余的虚构安全性。许多现代UPS系统可以指示服务器在电池寿命低于预设阈值时启动受控关机。虽然(此方法)并不理想,但拥有此功能比出现严重的重启问题要好得多。如果您可以修复漏洞,请制定详细计划,说明如何解决漏洞以及如何处理修复过程中可能导致的潜在故障。例如,如果管理员发出火警,应有人陪同处理,避免燃气消防系统倾倒和自动停机。而且,如果您计划在工作期间关闭火警,请通知设施、安全和消防部门,并确保有人携带便携式灭火器随叫随到。如果存在冷却故障的可能性,计划启动选择性关闭以减少热负荷并放置便携式空调作为预防措施。通过调试将数据中心断电风险降到最低即使数据中心的电源设计再完美,也有可能出现管理员只能通过调试才能发现的错误。调试代理不仅会查看安装的正确性并验证正确的设置和调整,而且还可能会尝试破坏系统。为了完成测试,代理使用一组脚本在模拟条件下运行基础设施系统并关闭各种元素,就好像它们发生故障一样。调试过程还包括在负载下完全关闭电源,并且可能会在单个设备中引入额外的故障,具体取决于用于设计意图的可用性级别。该过程还应识别不清楚的标记和未受保护或难以触及的关键控制,例如没有保护盖的电源关闭紧急按钮和不响起的警报。对于新设施,调试在设计和开发阶段就开始了。如果您使用独立的调试代理,请确保该代理在完成项目设计之前识别并修复大多数潜在缺陷。这不仅降低了数据中心中断的可能性,还避免了大规模变更订单的潜在成本。在现有的数据中心,通过多次关机来发现问题太危险了,这意味着完全意义上的调试是不可能的。在这种情况下,考虑数据中心审计,它涉及关键系统的设计审查和现场测量、测试和检查的组合过程。虽然它不会暴露所有潜在情况,但它可以暴露绝大多数漏洞并提供切实可行的补救措施和路径。
