当前位置: 首页 > 科技观察

怪异的数据中心故障

时间:2023-03-17 21:30:19 科技观察

数据中心包含大量IT设备,操作系统非常复杂。这样那样的故障时有发生,就连一些知名互联网巨头的数据中心也不能幸免。当然,数据中心可以部署很多备份技术,保证在发生故障时不影响正在运行的业务。数据中心故障的原因多种多样。大多数故障很容易理解,可以采取一些补救措施来避免将来再次发生。然而,一些数据中心故障的原因却十分诡异,让人感到一头雾水。不想想,失败的原因就有些无稽之谈了。本文将描述几个奇怪的数据中心故障案例。听到这些数据中心失败的原因,我脑洞大开。只能感叹数据中心的故障是防不胜防的!一声巨响,数据中心倒塌。就在9月份,罗马尼亚一家银行的数据中心业务中断了约10个小时。.数据中心在测试消防系统时,打开装有“烟雾燃烧”的钢瓶,通过软管和喷嘴将“烟雾燃烧”均匀喷洒在狭小空间内,从而达到灭火效果。气体通过喷嘴放出时,压力过高,放出后“烟尽”时,枪声异常响亮,超过130分贝。巨大的爆炸声引起震动,因此声音被传送到存储在数据中心的硬盘驱动器的外壳。服务器和数据存储设备都受到影响,破坏了设备的内部组件。这使银行的信用卡交易、ATM操作、网上银行、电子邮件和银行官方网站瘫痪。我们经常抱怨数据中心机房的噪音对人来说太大了,对里面的设备也是如此。这些设备长期承受各种设备运行产生的噪音的影响。事实上,这些设备对噪音也很敏感,尤其是突然的巨响,很容易造成内部电子元器件的故障,所以在数据中心增加一些降噪设施是很有必要的,因为人处在嘈杂的环境中时间长了环境就会受到刺激,电子设备也是如此。提供相对安静的环境有助于延长设备的使用寿命。一辆SUV引发的数据中心悲剧2007年11月,Rackspace位于美国达拉斯的数据中心遭遇了一场莫须有的灾难,故障导致其业务在数小时内瘫痪。一名因糖尿病而短暂昏迷的大型四轮驱动车司机正在开车时,该车一直向前行驶,从一个丁字路口撞上了马路外侧的护堤。被击中后,护目镜腾空而起,落在了Rackspace数据中心大楼上,正好击中了供电单元。一阵火光和闪电过后,数据中心的电源被切断。Rackspace为这种由外部因素造成的极其罕见的中断向客户支付了350万美元的损失,同时也增加了失去客户的风险。数据中心大楼可以承受8级地震,但不能承受SUV汽车的意外撞击,准确的说不是直接撞击。数据中心内部和外部的通道很多,这些管道也必须做好保护,具有一定的抗震、防碰撞、防火能力,才能避免此类意外故障的发生。飓风使数据中心的发电机停电2012年10月,美国纽约曼哈顿数据中心的整个供电系统因飓风桑迪袭击曼哈顿而发生故障。在数据中心的18楼,有多台备用发电机,用来提供源源不断的电力,不受洪水影响,但当暴风雨袭来时,直接将数据中心大楼的地下室填满,并摧毁了应急发电机。燃油泵送系统,整套电路浸泡在海水中立即失去作用,备用发电系统失灵,18楼的电力来自市电。当飓风袭来导致整个曼哈顿市电系统出现故障时,数据中心的主备电源全部故障导致数据中心断电,所有应用系统无法运行。1989年的一次太阳耀斑事件针对加拿大魁北克水电电网,导致电网电压振荡,使保护装置跳闸,差点导致东北地区电力协调委员会(NPCC)和中大西洋区议会(MAAC)崩溃。PublicServiceGas&Electric拥有的新泽西州一座核电站的发电机升压变压器遭受永久性损坏,无法提供服务。尽管强大的太阳耀斑/日冕物质抛射相对罕见,但不可否认的是,它对数据中心和电网来说可能是一场毁灭性的灾难。太阳耀斑是最剧烈的太阳活动之一,周期约为11年。高速产生强磁场过程中释放出的带电粒子,如果撞击地球,会产生惊人的现象,同时对电力系统造成严重破坏。如果打到数据中心的供电系统,数据中心肯定不堪重负。这是小概率事件,但一旦发生,将是致命的。早在1859年,就发生了一次太阳耀斑故障,即所谓的卡灵顿事件,导致全球电报系统失控。太阳耀斑喷射定期发生,如果数据中心磁场受到这些太阳系列事件的影响,数据中心可能会经历大范围的电涌和停电。巨响、撞击、飓风和太阳耀斑都给数据中心带来了灾难。通常,我们很少听到这样的失败。主要是因为这些故障发生的概率极低,甚至让人觉得这些故障很诡异。但是,概率小并不代表不会发生。我们知道,从发生概率上来说,飞机是一种非常安全的交通工具,但是坠机事故还是每年都会发生。与每年几千万次的飞行次数相比,发生的概率不到万分之一。一旦发生,就会造成严重的人员伤亡,这让我们不得不对这些小概率事件非常谨慎。一旦某个数据中心出现这样的故障,或许这个数据中心就会从地球上消失。这些故障根源在很多情况下还是可以通过优化来避免的。例如:对于冲击,我们可以对数据中心外围和建筑群的屋顶进行加固,避免数据中心因冲击而损坏;在中心机房外加装降噪装置,增加建筑墙体厚度,既防止噪声进入数据中心机房对设备造成损坏,又防止内部运行产生的噪声。设备不被传送到外面,以免打扰居民。因此,对于这些怪异的数据中心故障原因,采取一些常规的防护措施是可以避免的。