日前,谷歌数据中心又发生一起事故。美国当地时间周一中午,位于康瑟尔布拉夫斯(CouncilBluffs,Iowa)附近的谷歌数据中心发生爆炸。据警方初步调查,三名电工在数据中心大楼附近的变电站工作时发生触电事故,现场造成三人受伤。事件的电视画面。图片来源:爆炸发生数小时后,谷歌的搜索、地图和其他服务均报告中断。事实上,这是谷歌数据中心在短短一个月内发生的第二起事故。就在上个月19日,位于伦敦的谷歌云数据中心也出现了故障。根据谷歌发布的一份报告,事故原因是“多个冷却系统同时发生故障”,而且恰逢伦敦极端高温,外界温度异常高,机器无法维持正常运转。安全工作温度。停电直到第二天早上才恢复。数据中心的重要性和特殊性无需赘述,但近年来,我们看到越来越多关于数据中心发生爆炸、火灾、停电等事故的新闻。尤其是极端高温天气的频繁出现,炎炎夏日逐渐成为数据中心的一场“浩劫”。热浪滚滚而来:夏季越来越危险数据中心设备多、能耗高。盘点近年来发生的数据中心事故,每一次事故总会造成难以预料的重大损失。OVH机舱发生火灾。图片来源:互联网2021年3月,欧洲云计算巨头OVH位于法国斯特拉斯堡的机房发生严重火灾。据悉,火灾造成数万个网站瘫痪,部分客户数据彻底丢失,无法恢复。2018年11月,韩国三大电信运营商之一的KT位于首尔市中心的大楼发生火灾。由于通讯设备受损,事故导致韩国警察、医院、金融等社会基础设施被迫停摆。2018年8月,东京一栋建筑发生火灾,这就是在建的亚马逊AWS东京数据中心。大火燃烧了八个小时,造成五人死亡,另有五十人受伤。2017年4月,北京邮电大学网络数据中心发生火灾。起火原因是UPS电池组故障。北京多所高校校园网相继瘫痪。2015年10月,微软Azure上海数据中心因机房发生火灾停电故障,导致Azure无法正常提供服务,影响了金融、互联网、房地产等行业的用户。2014年7月,重庆农商行数据中心发生火灾,整个机房被烧毁。据传,直接损失达1亿多元。......作为海量数据的关键载体,数据中心机房的安全是整个计算机信息系统安全的前提,但往往又十分脆弱,时时牵一发而动全身。尤其是机房火灾,一旦发生,总会造成无法弥补的损失。在数据中心的各类事故中,火灾事故所占的比重很大。火灾的常见原因包括: 1。UPS电池着火。 2。负载过大。一般来说,机房增加设备不难,但电缆负荷不能轻易修改。如果电缆负载过重,会导致过热而引发事故。 3。空调设备或电气设备故障。以空调设备为例,电暖器和电加湿器作为机房不可或缺的设备,经常会引发火灾。 4。火焰蔓延引起的二次火灾。 5.高温、雷雨天气。在数据中心内,大量计算机密集运行,会产生巨大的热量。为了让服务器及时散热,散热系统必不可少。此外,近年来夏季越来越热,高温酷暑天数越来越多,外界温度的变化也增加了数据中心的降温压力。7月,英国经历了两天创纪录的极端高温。结果,正如我们所见,谷歌位于伦敦的数据中心的冷却系统被“击中”。业内人士表示,一般来说,数据中心在设计时都会考虑是否能够承受高温,但目前的极端高温天气已经远远超出了很多数据中心运营商的预测。根据行业数据,数据中心设备运行的最佳温度为22℃。在基准温度的情况下,温度每升高10°C,计算机的可靠性就会降低25%。不可否认,冷却系统对于数据中心来说是不可或缺的,但过度使用冷却系统会导致二氧化碳大量排放,加剧温室效应,造成恶性循环。为了更加科学合理地应对极端天气和节能降耗,科技企业普遍在探索绿色、低碳、节能的制冷路径。神奇操作:潜入深海、挖出高山,都是为了“降温”中心。阿里巴巴千岛湖数据中心于2015年正式启用,千岛湖地区年平均气温17度,其恒定的深湖水温足以让数据中心90%不依赖湖水以外的冷却能源的时间,节省80%以上的制冷能耗。2018年,微软将一个拥有800多台服务器的原型数据中心沉入苏格兰奥克尼岛附近的海洋深处。微软的海底数据中心。来源:People'sDataMeta,人民网,在瑞典北部靠近北极圈的吕勒奥市建立数据中心,用巨型风扇引入室外极地冷空气为服务器降温。美国国家科学基金会直接把数据中心放在了南极洲。该数据中心拥有1200多个计算核心和三个PB级存储,高性能计算集群位于南极冰川上。瑞典白山数据中心位于斯德哥尔摩白山公园地下30米处的一个洞穴中。挪威航运公司在海边的一个山洞里放置了一个数据中心。腾讯贵安七星数据中心建立在贵州省贵安新区某山,所有核心设备都藏在山洞里。溶洞隧道占地面积3万多平方米。腾讯贵安七星数据中心一角。来源:潇湘晨报从以上选址可以发现,高纬度地区(含极圈)、近水源地、偏远山区是常见的选择。数据显示,一般而言,电力成本占数据中心整体支出成本的50%至70%,其中空调能耗占近一半。相比之下,上述地方的自然环境得天独厚,对数据中心而言天然节能。以深海为例,水的导热性比空气强,大海可以充分吸收服务器产生的热量,从而达到降温的目的。微软的实验也验证了这一点。更有意思的是,微软通过评估还发现,海底数据中心的性能各方面都优于传统数据中心,水中的故障率是陆地的八分之一。选择深山的人也是如此。例如,贵州平均海拔1100米,贵安平均气温14℃至16℃,夏季平均气温不超过25℃。凉爽的气候,再加上厚厚的山石和泥土的阻隔,可以保证深山开凿的洞穴内温度相对恒定。这样可以大大降低冷却系统的压力。此外,在深山建设数据中心也大大减少了人为干扰,有助于减少事故的发生,进一步保障用户数据安全。常规防护:防微观为王虽然数据中心选址的门道很深,但因地制宜的条件并不是每个数据中心都具备的。对于大多数数据中心来说,定期保护才是王道。首先,做好异地容灾备份是重中之重。因为这是避免数据完全丢失的关键,也是关系到系统正常运行的核心保障。具体包括:对本地重要数据进行远程备份;定期检查备份数据是否正常可用;为重要的数据处理系统提供热冗余,保证系统的高可用性。当然,考虑到自身的业务需求、成本控制等因素,还需要选择合适的数据备份方式。二是做好日常运维和应急预案。数据中心的日常运维主要包括日常巡检、应用变更、软硬件升级、突发故障响应等。现在很多数据中心都开始实现全自动化巡检系统,可以自定义巡检路线,自动生成巡检任务,一键生成巡检报告。通过预警机制和流程规范,防患于未然,制定应急预案和应急演练,规避停机风险。三是一些普遍有效的节能降耗措施。例如,数据中心需要在无人工作时关灯;定期检查是否有闲置设备仍在运行;机房机柜背靠背热通道优化气流组织,提高散热效率;采用双回路管路,提高空调系统的安全可靠性;尝试重新分配热负荷并将其均匀分布在每个机架上,以最大限度地减少“热点”。结语从重要性上来说,数据中心可以说是企业的“心脏”。要维持其正常的“跳动”,IT和业务领导者需要大胆设计、审慎预测,并意识到在可能发生的灾难性事件面前,强大的IT基础架构将成为维持业务连续性的强大屏障。参考链接:https://www.theregister.com/2022/08/09/google_outage/http://www.360doc.com/content/19/0803/08/29585900_852701990.shtmlhttps://cloud.tencent.com/developer/news/486454https://www.sohu.com/a/291251196_470046
