对数据中心火灾频发的深刻反思——事后对OVH火灾报告的思考进行更全面有效的管理,改变目前以风险控制和应急为主的消防防灾管理着眼于为各行业,特别是对数据中心高度依赖的行业提供持续稳定的支持面向服务的火灾场景下的服务连续性管理,数据中心应制定详细的火灾场景下的服务连续性计划。一、火灾情况OVHCloud(原名OVH)是一家法国独角兽公司,总部位于法国鲁贝,在全球拥有27个数据中心。OVH是欧洲最大的托管服务提供商,也是全球第三大托管服务提供商。其数据中心园区位于法国斯特拉斯堡,包括四栋数据中心大楼:SBG1、SBG2、SBG3和SBG4。当地时间2021年3月10日凌晨,一场大火烧毁了OVHCloud位于法国斯特拉斯堡的钢结构SBG2数据中心,导致其托管的多个网站部分数据永久丢失。根据该公司网站上的事故报告,当地时间凌晨1点,SBG2内的一个房间发生火灾。到凌晨4点左右,大火已经完全摧毁了OVH的SBG2数据中心,并蔓延到SBG1的八个服务器机房中的四个。OVH创始人兼董事长OctaveKlaba在Twitter更新中表示,SBG3中的所有服务器都完好无损,SBG4未受火灾影响。但是,由于此次事件导致服务中断,这些数据中心全部下线。据了解,OVH上一次重大宕机危机也发生在斯特拉斯堡校区。2017年曾造成整个园区停电约40分钟。Klaba表示,这起事件与中断无关,而是由于网络设备中一个不相关的软件错误导致其位于鲁贝的校园失去了与其网络上六个关键点的所有连接。至于起火原因,官方目前还没有正式公布,但各种事实都指向由UPS设备引起的一系列故障。火灾发生前一天,供应商对UPS7进行了维护,克拉巴表示,供应商更换了UPS7内部的某些部件,并于下午重新启动。虽然直流电汇聚成高压确实存在着火的风险,但克拉巴并没有说UPS是起火的原因。“我们今天没有所有的答案,”他说。OVHcloud工作人员于周二晚上11点42分响应火警,但数据中心受影响的部分已经烟雾弥漫:“两分钟后,他们决定离开,因为太危险了。2.灾后报告与反思通过相关机构和媒体的报道事件发生后,国内多家机构开始结合此次火灾的事实,并不仅仅局限于此次火灾,对火灾风险、成因及对策进行分析,希望能为数据中的央企做出一点贡献减少火灾的发生,仔细研究后发现,这些分析文章的观点都集中在火灾原因的分析上,大多只分析技术性火灾原因,如短路、过载、接触不良、漏电、线路老化或散热等,给出的对策大多集中在这些起火原因上,降低起火的概率和早期发现,例如使用非常早期的烟雾检测技术、加大对高火险设施的监测力度、加强巡查、定期更换老化部件、竣工验收和检测等。但仅靠这样的分析显然是不够的。从本次火灾的现有记录来看,凌晨1:00确认SBG2的一个房间在一个多小时前发生火灾,已经触发火警,所以不能说这个发现不是及时的。但是,为什么隔了这么久还没有得到有效的处理呢?在外部消防力量的介入下,火势直到凌晨4点才得到控制。为什么防火分区没有发挥足够的作用?为什么数据中心自身的灭火系统没有发挥有效作用?为什么未受火灾影响的部分不能提供服务?多路由呢?火灾从故障到大火,从小灾到大灾,进而波及众多下游企业和政府部门业务的系统性灾难,这个演进过程,能不能被以上原因覆盖?3、要全面反思火灾原因。因此,我们在分析起火原因时,不仅要分析起火原因,还要分析造成灾害的原因。大家都知道防火是重中之重,但是防什么呢?不仅要防火,还要防灾!关于起火原因及应对措施,前面已经提到,其他机构和各家媒体都有反映,我就不再赘述了。虽然起火原因目前还没有正式定论,数据中心的关键数据也没有公开,因此无法准确判断起火原因,但这不妨碍我们举出常见起火原因的例子灾难。首先是防火防灾意识的缺失,这是导致数据中心火灾频发的最根本原因。负责部署防火工作的副总经理没用。他的观点很有代表性。总经理说,我们数据中心使用的是阻燃阻燃材料。怎么会火起来呢?持这种观点的人不在少数。即使在OVH火灾发生后,也有媒体表示,如果数据中心放在海底,就不会发生火灾。如果真是这样,那为什么各国海军经常报告潜艇起火呢?人们认为,如果海底数据仓库中没有氧气,就不会发生火灾,但你知道吗,并不是只有氧气才能助燃?在一个能量密度极高的密闭空间里,有谁能保证不会起火甚至爆炸?有了这个意识,自然就不会在防火防灾上下功夫了。其次,数据中心的设计存在缺陷。数据中心的设计应保证数据中心在足够高的可用性水平的基础上具有足够的弹性,以保证数据中心在局部损坏的情况下也能有可接受的有限服务能力。数据中心设计人员缺乏防火、防灾意识,这会在数据中心设计中体现出来。例如,他们认为GB50174数据中心设计规范中A级数据中心不存在单点故障的原则要求与火灾场景无关,防火问题只需要按照消防要求保护代码,无需特别考虑数据中心。比如我在一个即将进入土建阶段的大型A级数据中心的设计图纸上看到,业主要求建设一个世界级的数据中心。本应完全隔离的双向供电系统和UPS系统被设计成这样,只要其中一个设备着火,整个数据中心就会完全断电,成为单点故障。再次,施工缺陷。比如,我在不止一个数据中心看到,现场与图纸上的防火分区不对应,着火点不对应,防火分区与火筒不对应,甚至发现有些气体灭火室根本没有气体管道。这些都给后期运维团队有效应对火灾风险带来了很大的不确定性,而且通常不易发现和验证,验证费时费力。前任总经理还有一句经典的话:现实与图纸不符是工程部的责任,我们数据中心只需要按照图纸操作即可,不需要验证。最后,到了运维和使用阶段,往往是由于意识淡薄,对消防工作不够重视,造成火灾防不胜防、火灾防不胜防、小火成灾。比如你不做上面提到的验证工作,你就无法识别和控制风险;动火作业管理不到位,留下火灾隐患;让包装纸箱等易燃物品进入重点区域无人看管,留下火灾扩大的隐患;为便于检修操作,未及时关闭防火门,接线操作损坏防火密封,未及时修复,导致防火分区失效;灭火器配备不够,检查期间不更换灭火器。使用二氧化碳灭火器等,导致无法扑灭初期火灾隐患;过度依赖联动灭火、人工操作;组织演练时,只演练肤浅,人员不熟悉方案,未经验证的方案只在夜间和节假日才有。系统的有效性、系统运行方式的调整但没有及时更新方案等,导致方案用不上需要的时候……更进一步,还要引导客户使用数据中心合理引导客户采取措施,减少因数据中心造成的服务中断给客户带来更大的损失。例如,对于业务连续性要求高、业务中断难以接受的客户,引导客户采用容灾、多活等高可用方案,将系统分布到两个或多个不同地点的数据中心,中心一定距离;对业务连续性要求不高,仍能接受一定程度的业务中断,但业务数据价值高的客户,应引导客户备份数据,保存在其他地方。又如在数据中心站点资源分配和使用时,可以根据业务系统重要性和业务连续性需求的不同合理划分,引导客户进行部署,确保在数据中心局部损坏和服务能力不足的情况下不足的,业务连续性要求可以先有条件地保证高关键业务系统的正常运行。现实中,数据中心为了吸引客户,往往标榜看似合理,虚假的高可用性,使得客户对单个数据中心产生不切实际的期望,使得数据中心火灾成为牵涉众多的系统性事件,将损失归咎于客户。和声誉影响:谁告诉你不要为灾难做准备?如果数据丢失,你该怪谁?这只是清单的一部分,远非所有起火原因。4、新基建背景下,数据中心消防管理的新要求目前紧随当前中国制造2025、网络强国战略、国家大数据战略、数字化转型、两化融合、互联网+、一带一路一路,云计算、大数据、CPS(Information-PhysicalNetwork)等一批新的国家战略制定和新技术发展如火如荼,数据中心成为支撑这些国家战略实施的关键基础设施。特别是2020年3月4日中共中央政治局常务委员会召开会议,会议强调“要加大公共卫生服务和应急物资保障投入,加快建设新5G网络和数据中心等基础设施。要着力调动民间投资积极性。“不仅数据中心的建设会进入高潮期,与此同时,各行各业对数据中心的依赖程度也会越来越高。继银行业之后,更多对数据中心依赖程度高的行业将会包括火灾在内的数据中心服务中断不再是数据中心自己的事,而是会成为系统性的社会风险,必须引起数据中心从业者的高度重视(见图2)。火灾也应随着国家战略的实施,数据中心在国民经济中的作用越来越重要,将进行更加全面有效的管理,而当前的防火防灾管理,主要围绕风险控制和应急预案,将重点放在所有行业,尤其??是那些高度依赖数据中心的行业,旨在提供持续稳定的服务火灾情况下服务连续性管理的支持服务。数据中心应制定详细的火灾场景下的服务连续性计划。做好以Reduce(减少)为目标,追求零火灾风险、零灾害、零中断的风险管理和日常运营计划;做好快速灭火、减少人员伤亡、减少损失、业务连续性、信息安全、环境影响等多重目标要求。应急响应(Respond)和业务恢复计划,确保数据中心设施资源能够快速恢复(Recover)到可接受的最低可用性水平,恢复(Resume)数据中心服务;灾后重建(Restore)计划也必须提前准备好,确保数据中心有可供重建的资源,尽快将数据中心的服务水平恢复(Return)到灾前水平。作者简介赵永祥,北京太极华宝科技有限公司数据中心总工程师,北京中网信息技术有限公司研究院有限公司副院长,本刊编委,部分国有政策性银行、政府部门、科研院所专家库成员。长期服务于中金数据系统有限公司、联想集团数据中心等知名数据中心企业及企业数据中心。在信息技术行业和数据中心领域拥有超过20年的管理和应用经验,专注于数据中心服务能力成熟度研究、业务连续性管理在数据中心的应用实践和绿色数据中心建设等领域。
