当前位置: 首页 > 科技观察

盘点:近年来数据中心十大灾难事件

时间:2023-03-18 13:30:04 科技观察

对于数据中心来说,保持业务连续性是首要目标。然而,庞大的数据中心面临诸多潜在风险,小概率事件也可能带来灾难性后果——机房火灾,服务器长期宕机,名誉受损。据不完全统计,仅2020年以来,类似的重大事故就有十几起。IDC圈整理列出了近三年数据中心十大灾难。数据中心火灾前后对比事件一:韩国SK公司数据中心火灾韩国数据中心火灾2022年10月15日,韩国SK公司C&CPangyo数据中心发生火灾,火灾被扑灭约8小时后。火灾发生后,数据中心停电导致包括韩国国民级聊天软件KakaoTalk、主流电商平台NAVER在内的多项网络服务中断。据《韩国时报》报道,此次火灾导致约3.2万台服务器瘫痪,数千万用户服务受到影响——截至2021年,韩国人口约为5200万。一天后,KakaoTalk和其他服务开始恢复。数据中心客户表示,由于大量服务器丢失,恢复过程花费的时间比预期的要长。调查发现,安装在地下室三层电器间的5个电池架全部被烧毁,电池和架子附近起火疑似是电气因素引起的。事件二:湖南电信莲花花园大楼起火2022年9月16日,位于湖南省长沙市芙蓉区的湖南电信大楼发生火灾。数十层楼猛烈燃烧。伤亡。经初步调查,现场着火的是建筑物的外立面。为防止发生危险,大楼内部分设备已断电。据中国电信官方及用户反映,部分用户手机的语音和短信功能受到影响,截至当晚12时仍未恢复。长沙电信大楼起火-图片来源央视新闻长沙电信大楼于2000年竣工,地上42层,地下2层。该大楼包含河源电信机房,是湖南最大的骨干接入点之一。据此前资料显示,该机房拥有25G光纤直达CHINANET骨干网,机柜总数约1000个。事发前的招标信息显示,该楼消防设备超限,火灾报警系统存在重大安全隐患。事件三:谷歌数据中心电气爆炸当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成3人受伤。据媒体报道,三名电工在数据中心大楼附近的变电站工作时发生电弧闪光(电气爆炸),被严重烧伤。事故发生后,多个地区的谷歌地图和谷歌搜索服务中断。数据显示,该故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美部分地区、欧洲和亚洲部分地区。谷歌确认事故为电气事故,但未透露具体原因。事件四:英国高温导致多个数据中心宕机导致系统宕机。甲骨文报告称,数据中心的两个制冷系统出现故障,导致数据中心内的温度越来越高。一些系统自动采取保护措施关闭操作,导致一些用户的数据使用延迟。谷歌还声称,数据中心的冷却系统出现故障,导致该区域部分容量出现故障,导致VM(虚拟机)终止运行,并导致少数客户机器丢失。与此同时,谷歌关闭了机房的部分机器,以防止进一步的破坏。损害。谷歌表示只有“一小部分用户”受到影响。事件五:网易游戏机房服务器大规模宕机2021年11月3日,多款网易游戏无法登录或掉线。根据《绝对演绎》等游戏官博,原因是机房过热,服务器宕机。事发约3小时后,网易游戏服务器已恢复正常登录,网易尚未对故障做出统一回应。事件六:Telstra英国数据中心火灾2021年8月27日,Telstra位于英国首都伦敦的托管数据中心发生火灾,导致停机。火灾导致大楼一半断电,消防员表示,虽然只有三楼供应室的一小部分被烧毁,但在大火使支撑母线的断路器跳闸后,工程师不得不启动发电机以恢复供电。据分析,火灾事故很可能是UPS故障引起的。事故突破了温度保护、灭火、UPS预见性维护、UPS预防性维护等多重保障,最终引发火灾。事件七:洪水导致河南多处机房停电2021年7月,河南遭遇特大暴雨,多个数据中心受洪水影响,机房停止服务:河南移动机房公告河南移动枢纽机房被关机,无法正常办理移动业务;海腾郑州BGP机房、华中郑州BGP机房等数据中心因该地区市电中断,停电1、2小时以上,机房采用柴油机供电。停电前,考虑到用户数据安全,将暂停服务。西数郑州地区、晋江文学城、河南省产权交易中心用户发布通知,表示服务被机房中断。IDC圈当时收到的照片显示,河南某数据中心机房进水。事件八:OVH数据中心火灾当地时间2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾。所有数据中心都停止服务。四个数据中心中,一个被彻底烧毁,三分之一的服务器被毁。OVH火灾现场发生火灾后,法国政府、企业和公用事业网站约360瘫痪。部分游戏开发商在欧洲的业务也受到影响,部分位于数据中心的服务器被烧毁。说有25台欧洲服务器彻底毁坏,没有备份,数据也无法修复。尽管OVH在短暂调查后解释说火灾可能是由UPS引起的,但一年后法国官方事故调查机构发布的一份报告显示,这场灾难更可能是由配电室的逆变器周围受潮引起的。事件九:WebNX犹他州数据中心起火2021年4月,美国托管公司WebNX位于犹他州奥格登的数据中心起火,导致超过36010,000个网站出现故障,约15,000名客户的数据被泄露。受影响的部分客户数据完全丢失且无法恢复。事件十:微软Azure美国数据中心服务中断6小时2020年3月3日,微软Azure美国东部数据中心中断6小时,导致客户无法使用Azure云服务。微软后来透露,冷却系统故障是停电的原因,错误的楼宇自动化控制减少了整个数据中心的气流和随后的温度峰值,阻碍了网络设备的性能,并使计算和存储实例无法访问。……当然,2020年以来,数据中心发生的重大故障远不止上述这些。例如,2020年8月,华为云香港机房制冷设备出现异常,导致服务器挂机3小时;2022年10月,苏州国科数据中心屋顶因备用冷却塔起火,但影响范围可能比较小。或苏州国科数据中心等机房、业务不受影响,故不计入。在此仅盘点发生严重失败、影响重大的事件,供大家了解,以鉴前鉴。