一声巨响,数据中心倒塌。罗马尼亚某银行数据中心业务中断约10小时。原因是数据中心在测试消防系统时,打开装有“燃烧烟雾”的钢瓶,“燃烧烟雾”通过软管和喷嘴均匀喷洒在狭小空间内。当气体通过喷嘴释放时,压力过高。大,当“烟尽”释放时,发出异常巨大的噪音,超过130分贝,引起震动,影响服务器和数据存储设备,破坏设备内部元件,使银行业务瘫痪。事实上,数据中心设备对噪音也非常敏感,尤其是这种突然的巨响,很容易导致内部电子元器件发生故障。(专家点评:有必要在数据中心增加一些降噪设施,提供一个相对安静的环境,有利于延长设备的使用寿命。)一辆SUV车造成的悲剧位于Rackspace数据2007年11月,美国达拉斯中心遭遇一场无辜的灾难,一名大型四驱车司机在驾车时因患糖尿病陷入短期昏迷。击中护堤后,它冲到空中,落在了Rackspace数据中心大楼上。它碰巧撞到了电源装置。一阵火光和闪电过后,数据中心的电力供应中断,几个小时后就开始营业了。瘫痪了。Rackspace为该事件向客户支付了350万美元,同时也增加了失去客户的风险。(专家点评:数据中心需要具备一定的抗震、防撞、防火能力,才能避免此类意外故障。)飓风让数据中心的发电机停止运转。2012年10月,位于美国纽约曼哈顿的数据中心。肆虐的飓风桑迪袭击曼哈顿时,电力系统出现故障。数台备用发电机放置在数据中心的18楼,提供源源不断的电力,不受洪水影响。然而,当暴风雨袭来时,它直接填满了数据中心大楼的地下室,并摧毁了应急发电机的燃油泵送系统。使用市电。飓风来袭时,整个曼哈顿市电系统出现故障,数据中心主备电源均出现故障,导致数据中心停电,所有应用系统无法运行。太阳耀斑事件1989年,一场针对加拿大魁北克水电站的太阳耀斑,导致电网电压震荡,导致跳闸保护设备动作,某核电站发电机升压变压器完全损坏,无法提供服务。太阳耀斑是最剧烈的太阳活动之一,周期约为11年。高速产生强磁场过程中释放的带电粒子对数据中心和电网来说是一场毁灭性的灾难。这是一个小概率事件,但一旦发生,对数据中心将是致命的打击。天灾之下,数据中心人员是束手无策,还是能有所作为?当突然出现故障时,运维人员是否真的能够在最短的时间内有效地完成故障排除?系统真的能按计划快速恢复吗?这些是数据中心故障处理能力的实际考虑因素。良好的培训和全面的应急计划和演习将有助于应对突发事件。灾备演练以全农行***参与的数据中心信息系统业务级灾备演练为例,包括事件响应、预警准备、系统恢复、业务验证、总结五个阶段回滚,10分钟内完成总分公司灾备人员集结;75分钟内,恢复对公应用、内账核算、单折、银行卡、客户信息、联名行、现金管理、仓库现金、表外9项核心业务,并通过36家分行营业网点业务验证全国企业核查成功率达99.94%。未雨绸缪、多手备战飓风桑迪后,发现很多企业对燃料供应链的重视不够。数据中心灾难规划将备用发电机放在首位:当燃料耗尽时,所有工程项目和技术、系统都可以正常运行,直到柴油燃料被悲惨地耗尽……即使公司可以获得燃料供应商的支持,他们还需要在需要时防止因灾害和事故造成的交通瘫痪。这些问题可能发生在其他情况下,例如地震、飓风、龙卷风造成重大民用基础设施损坏。我们从飓风桑迪中吸取的重要教训之一是,需要更多地关注燃料供应链冗余、地理位置和替代航运路线。人员培训当自然灾害发生时,人员冗余的问题当然是必不可少的,这样一个人就不会成为企业运转的关键。不过万一发生百年难遇的天劫,说不定就要提前安排N+1人。不够。在桑迪这样的灾难中,更广泛的交叉培训将帮助数据中心解决大问题。
