当前位置: 首页 > 科技观察

三年十次故障灾难数据中心如何防范和应对?

时间:2023-03-13 14:41:24 科技观察

数据中心的存在是为了确保计算的安全性和连续性。然而,仅在过去的三年里,数据中心就发生了十多次故障甚至灾难。详见:《盘点:近年数据中心十大灾难事件》数据中心系统复杂,运维安全不易。近年来极端气候和技术发展等因素也给数据中心的高可靠性带来了新的挑战。我们应该如何预防它们?和应对?数据中心故障的“老面孔”盘点近几年的灾难不难发现,电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。线路老化线??路老化引发火灾,在建成多年的数据中心中很常见。韩国SK数据中心的火灾是由线路起火引起的。线路故障的主要原因是老+热:老:电线上包了一层绝缘层,正常使用寿命10到20年。线路老化后,可能会造成损坏,绝缘性能下降。遇到液体或湿度过大时,很容易造成短路、起火。热量:根据焦耳定律,负载电流通过导线时会产生热量。数据中心24小时不间断运行,在电线长期高负荷运行的情况下,高温加速了电线绝缘层的老化,甚至绝缘层被击穿。UPS/电池故障Telstra英国数据中心火灾和北京邮电大学数据中心火灾均由电池故障引起。数据中心电池/UPS故障的主要原因是过度循环放电、电池连接器密封不良、链接松动、高温、高浮充/低浮充电压等。铅酸电池的一般寿命为5年,而锂电池的寿命约为10年。随着电池寿命的增加,性能下降,故障率也增加。如果疏于维护和检查,可能无法及时更换寿命接近尾声的电池。并且由于数据中心的电池数量庞大,所以采用串联或并联的方式。一旦电池发生故障起火或爆炸,就会蔓延开来,造成大灾难。锂电池一旦着火爆炸,比铅酸电池更危险,灭火也更困难。例如,2021年北京市丰台区西红门储能电站火灾爆炸事故,就是由于磷酸铁锂电池在电池室内发生内部短路故障,导致电池起火蔓延。热失效,然后在遇到电火花时爆炸。近年来,锂电池在应用中的主要质疑来自于此。制冷故障,无论是压缩机、安全阀,还是断水,或制冷效率低下,都会导致机房温度升高,影响设备性能。中断、硬件损坏、数据丢失。通过人工误操作进行日常巡检是数据中心的重要保障,但操作不当也是导致故障的重要原因。此前,多起数据中心火灾都是由于人员操作不当产生电火花,引燃易燃材料引起的。也有数据中心在维护时没有严格按照工作手册操作,导致电池短路等故障。造成数据中心业务中断的因素占比统计来源:研究机构Uptime发布的UptimeInstitute2021年全球数据中心调查报告《2021年全球数据中心调查报告》也显示,造成数据中心业务中断的因素中,电力、网络、和散热占前三。越是发展,数据中心的新挑战就越“危险”。近年来,极端天气、流行病、技术发展等也给数据中心的高可靠性带来了新的挑战。忽略极小的泛洪和停机概率导致了之前的许多教训。面对这些新变数,从业者必须更加警惕。结合以往的走访和了解,笔者尝试总结如下:新挑战1:数据中心规模越大,运维管理难度越大。数据中心建设呈现规模化、集约化趋势。近年来,新建项目中的中小型数据中心较少,多为大型、超大型数据中心园区,分期建成。然而,数据中心系统庞大且管理复杂,暖通系统、电力系统、弱电系统、消防系统……一个1000个机柜的数据中心,测点超过10万个。随着规模的增大,巡检费时费力,运维故障排查难度成倍增加,容易造成遗漏和盲点,进而引发安全事故。新挑战二:高功率高密度,压缩应急时间。就像Azure美国数据中心的灾难,当数据中心的制冷出现故障时,机房的温度持续升高,服务器出现异常。如果运维团队不能及时排除故障,高温将导致服务器停机、设备损坏。近年来,数据中心单体服务器机柜的功率密度不断提高,服务器在高负载下工作的发热量也相应增加。机房温度迅速升高,留给运维的应急处理时间被压缩。曾经有从业者说,“现在机房5分钟可以升温3-5℃,20分钟升温15-20℃左右。如果说应急时间还剩运维团队定位和处理故障的时间是30分钟以上,现在已经压缩到10分钟甚至更短。”新挑战三:极端天气频发近年来,全球干旱、暴雨、高温等极端天气频发。带来新的挑战。大雨导致城市洪水泛滥。例如英国属温带海洋性气候,最高气温不会超过32℃,而今年却达到了惊人的42℃。“极端高温天气远远超出了数据中心运营商在设计之初的预期。”同样,我国北方很多地区年平均降雨量不高,因此也没有完善的防洪预案。有的数据中心甚至水泵等物资供应不足,没有考虑积水时的供油和输送问题。今年以来,四川等地遭遇了罕见的大旱,水电供水较为缺水。全市实行限电措施,部数据中心长期只能依靠柴油发电机。新挑战四:疫情变数当所在地发生疫情感染,或者区域封闭时,如何保证数据中心的正常运行,同时保障数据中心工作人员的健康和安全?从业务连续性到处理客户紧急需求,从运维团队配置、人员衣食住行,到内部防疫感染、访问限制措施,数据中心都需要形成完善的系统避免在紧急情况下措手不及,造成停机或大面积感染事件。从选址设计到保险购买,数据中心安全方面都提到了很多灾难案例和故障因素,需要强调的是防灾和响应不仅仅是数据中心。数据中心的高可靠性需要多方参与建设。就像木桶效应一样,任何一个短板都会造成遗漏。选址规划设计关注风险因素自然资源是数据中心选址规划的重要考虑因素,常年低温、气候干燥、水资源丰富、水电充沛,这些都将为数据中心运营带来优势.然而,全球极端天气频发,各地气候逐渐发生变化。正如伦敦一家数据中心的负责人今年夏天所说,“数据中心在设计上就已经做好了耐高温的准备,但目前的极端高温天气已经远远超出了很多数据中心运营商在设计之初的预期。”因此,数据中心的选址设计必须考虑更多的气候变量。凉爽地区可能常年面临高温,干旱地区可能会遭遇暴雨。有丰富的水电和多条干线连接。电力绝不是有保证的,极端天气也是有可能的。当地罕见的山火、山体滑坡等事故发生概率大大增加。过去不可能出现的气候问题需要数据中心的设计者和运营者考虑,以避免因河南洪水和伦敦高温等“超出设计预期”的情况导致宕机。基础设施共建安全。各种系统设备制造商可以采取各种行动来帮助数据中心安全并减少或防止发生灾难的可能性。一是不断提升装备性能。例如,制冷系统制造商美的建筑科技针对当前数据中心空调散热高、能耗高的痛点,推出了多种制冷解决方案,有效提升制冷效率。其次,应用新技术,研发新产品,弥补数据中心的短板,提高整体安全性。例如,Clever在IDCC大会上介绍了小母线和智能PDU在数据中心的应用。产品更耐高温,避免浪涌攻击,减少导线变形和电路损坏,提高供配电系统的稳定性。锰酸锂LMO针刺试验三是确保新技术的安全性,在应用新技术推出新产品前进行严格的可靠性测试和验证。例如,华为数字能源在实验室对SmartLi智能锂电池产品进行并联不均匀流热插拔测试,在TUV机构进行针刺实验,测试三元锂、锰酸锂、磷酸铁锂电池后的反应针刺,观察是否会引起热失控和起火,验证其电池产品的稳定性。四是从设备层面实现智能化、数字化,推出智能化管理系统,实现设备可视化运行、故障预测和定位,降低运维难度和压力,减少遗漏。例如中兴通讯iDCIM数据中心智能管理系统,支持百万测点接入,多维度可视化,支持机器人巡检,可实现数据中心基础设施全生命周期管理。自主研发提高可靠性最了解数据中心的是数据中心。除了采用各厂商的设备和管理系统外,还有走在行业前列的数据中心,将运行经验积累成系统,根据需要开发管理系统、软硬件,提高可靠性。例如,万国数据根据运营80多个数据中心的需要,构建了三层的全球数据中心运营架构。它还在IDCC2021上推出了第一代智能DC。在智能化运营方面,基于运营实践,自主研发软硬件。协同形成X-BP系列产品,构建更懂数据中心的机电系统,实现全栈智能管理,优化TCO。灾备两地三中心“不要把所有的鸡蛋放在一个篮子里”,这句名言是灾备两地三中心最好的广告语。由于政策和合规性要求,金融用户特别关注灾难恢复和备份。IDC圈了解到,去年以来,多家银行金融机构纷纷启动灾备数据中心建设计划,其中和灵格等“东伯西伯”节点是热门地点。中国银行、中国农业银行、中国建设银行等多家金融机构已经在和灵阁部署了数据中心。为直接关系国计民生的数据中心托管购买保险越来越重要。一旦发生灾难,将给数据中心和用户带来巨大的金钱和形象损失,因此保险成为最后的保障。IDC圈从保险业内人士处了解到,数据中心保险可以分为三类:第一类财产损失保险属于传统保险,财产险保险公司可以提供此项服务,只是估值方式不同,以及如何评估资产和损失。此类保险偏向于物质损失,一般承保火灾、地震等自然灾害。基本上,数据中心购买这种类型的保险。第二类是部分损失网络安全险。一般财产保险公司或责任保险公司专门经营此类产品。与财产险侧重物理损失不同,网络安全险侧重于外部攻击,如DOS、安全攻击等,造成设备、软硬件损失,维护成本高。第三类,部分责任网络安全或数据安全保险,是一种新型保险,覆盖数据中心企业自身的责任,实际上是针对客户的——如果数据中心被攻击等,客户数据是泄漏或丢失。、损坏、篡改、软硬件损坏,如有确凿证据,将予以赔偿。网络安全保险的主险往往有营业中断损失险、隐私泄露责任险、网络勒索险等附加险种。一家保险公司对数据中心的保险计划因此,数据中心保险的构成要比众所周知的人身保险和财产保险复杂。企业可咨询提供财产险和责任险的保险公司,或请笔者咨询大同保险等专业保险中介机构提供服务,定制符合需求的保险产品和承包范围。如果数据中心购买了保险产品,一旦发生故障或灾难,如火灾导致客户服务中断,是否赔付取决于签约保险产品的责任属性,是否为服务中断、数据丢失等责任,或信息泄露。是否在保险范围内。总而言之,保险购买、责任确定和估值都很复杂。如果大家有兴趣深入了解,IDC圈会邀请专业人士进行深度访谈和撰写文章。智者多虑,必有失误。当前,数据中心防灾响应面临诸多新挑战,数据中心的高可靠性需要多方共同参与。