管理人员研究如何防止电气火灾,一直工作到下午三点,最终决定在机房内加装声音报警器和两辆分解母线。数据中心。通过这份灾备报告,我们可以找到故障点,以及如何避免云灾。恢复DR站点的IR运行用了一天半夜,而且这还只是针对***级的优先级系统。有了便携式空调、临时通讯和小型不间断电源,我们就可以恢复手机通讯。更换大开关烧坏的部分花了数周时间,但我们仍然需要知道出了什么问题,以免再次发生。以下是我们在灾难恢复报告中发现并记录的六个故障点。隐患一:空调设备虽然我们配备了多台空调设备,但这些设备都共用一个总机。只有两个冗余单元和一套独立供电的不间断电源(UPS)机房单元,设计者认为这样想是合乎逻辑的,但在实践中却否定了备份的想法。我们无法正确设置主断路器的跳闸电流,工程师和承包商也没有调整断路器。所以当空调出现问题时,主断路器跳闸而不是单独的分支断路器跳闸,这浪费了80%的制冷资源。红外线扫描可以在总机里进行,但只有部分空调可以。该设备在满载情况下没有过热,因此我们在测试期间没有注意到连接松动。第二连接配电板与第一连接配电板相同,在同一电气柜中。这样做的目的是为了满足财政预算。因此,两条电源总线彼此相邻。当一个爆炸时,它也会引爆第二个,然后我们就什么都没有了。隐患点二:数据中心设计在灾备报告中,我们需要检查的另一项是数据中心设计。由于整栋楼使用一台发电机,转换开关设置在地下室配电盘上方。没有感觉到即将发生的电源故障,但是损坏的配电盘会阻止我们。共享一个生成器,我们应该在数据中心设置多个自动切换器来提供数据转换。这样,如果数据中心被带电,而建筑物内的其他设备不受影响,发电机就会启动,数据中心将恢复到应急电源。我们反对电气室离数据中心太近,因为我们不希望电气室参与计算环境。我们忽略了这一点。电气室空调设备运行正常,数据中心设备未运行。此时电气室会产生正压。当门打开时,爆炸产生的热量和烟雾逸出。隐患点三:烟雾探测器的问题预警型烟雾探测器会第一时间识别出危险,也可以控制气体灭火,虽然设置方法不正确。因此,探测器在发现危险源时并不发出警报,而是根据探测到的烟雾触发释放气体的功能。烟雾颗粒还会污染其他正常运行设备的过滤器。唯一的好消息是,电气室中的A/C单元与两个备用单元在同一电路上,因此可以继续运行。如果不进行冷却,UPS会迅速升温,从而导致原机房关闭。应该旁路UPS来维持主机的供电,但是我们在测试的时候发现旁路接错了。只有一台空调机组,损坏的可能性非常高。隐患四:优先级UPS可以通过网络进行顺序服务关系,但是由于优先级问题的存在,这个想法一直没有实现。我们还了解到,不需要紧急断电按钮,因此不会有“高架地板”,也没有使用限制。工程师指出了业内一些非常危险的按钮,“因为每个数据中心都会有一个危险按钮”,但没有包括任何保护按钮以防止过早使用。数据中心经理将面临无数具有挑战性的任务。我们必须学习如何对实际过程中将要接触的任务进行优先级排序。隐患5:DCIM告警当我询问时,数据中心基础设施管理(DCIM)工具会提醒我主要警告,但唯一的限制是ASHRAE的允许温度,高于数据的实际冷却温度中心。由于冷却温度设置是基于之前的推荐温度值,低于推荐温度,在触发警报之前已经宣告了故障,我们仍然需要花费大量时间进行救灾和抢修。DCIM还会显示我们设置的10台空调中有8台宣告设置故障,同时也会说明故障原因和影响因素,我们没有为DCIM系统购买机械设备模块,所以当冷却装置安装失败时没有警告信息。这也记录在灾难恢复报告中。隐患六:缺乏培训和标准在实际工作中,我们需要进行多次DCIM培训。GUI非常复杂,会提供很多详细的数据,让我们很难识别。我们试图重新设计GUI,以便我们可以更清楚地看到它,但是可配置性非常低。IT应该包括在重要系统的选择中,并且在购买之前,进行同行测试以明确其他软件是如何衡量的。我们很清楚这不是III级事件,正式认证会披露这些漏洞。该公司避免了外包备份和DR站点带来的许多麻烦,因此开发和测试计划的失败是我们自己的。作为容灾报告的一部分,我们花了很多时间非常仔细地审查了DR站点合同,并根据审查过程中发现的问题提出了一些改进建议。我们在制定DR计划方面也得到了一些帮助,并且通过转移操作,我们现在能够每年进行两次测验工作。
