当前位置: 首页 > 科技观察

阿里云香港机房瘫痪12小时 引发海外云服务安全担忧

时间:2023-03-19 13:25:01 科技观察

阿里云香港机房瘫痪12小时,引发海外云服务安全担忧停服12小时属于硬件故障事故,紧急抢修恢复超时。光纤没有被剪断,也不是电力部门的问题,也没有因为火警而耽误维修时间。经记者多方调查核实,阿里云香港服务中断12小时系硬件故障导致,紧急修复恢复严重超时。这类数据中心的电力事故原本是国内外云服务商面临的一大难题,但用业内资深人士的话说,“12小时恢复时间太长,几分钟就可以解决””12小时的超长处理时间,以及过程中阿里云与相关方的各种甚至自相矛盾的解释,引发了用户的不满和业内的质疑,也暴露了阿里云在故障处理和沟通上的不作为。公众。存在的问题。甚至有用户反应,服务恢复需要15个小时。事故发生在6月21日上午9点至10点之间,部分使用阿里云香港数据中心的用户发现服务出现问题。之后,阿里云通过博客宣布香港机房因运营商电力问题出现故障。正在维修中。此后,阿里云客服多次更改对用户的解释。一位用户告诉财新记者,事故发生后,他致电阿里云官方客服,得到的解释是连接香港和中国大陆的光缆被切断了。过错。6月23日,阿里云就此次事故向记者发文说明:6月21日上午9时37分,阿里监控系统发现阿里云香港IDC运营商明启通机房访问异常,明启通通报原因是供电系统故障,导致整个数据中心大楼断电,引发火警。根据当地消防规定,必须彻底排查隐患,彻底消除隐患,方可进入现场抢修。21时22分,机房正式恢复稳定供电。阿里立即执行既定计划,一一恢复服务。21时32分,安全防护服务恢复正常,各项服务陆续恢复。到23时39分,所有服务恢复。根据这份声明,阿里云香港服务瘫痪了12个小时,主要原因是机房建设者和运营商明启通停电。停电近12小时后,阿里云才得以进入机房抢修。根据阿里云的解释,抢修失败的原因是整栋大楼断电,无法切换备用电源,排查火灾隐患延误了抢修时间。阿里云仅用了10分钟(21:22到21:32)就恢复了安全防护服务,之后又用了两个小时恢复了所有服务。但事实并非如此。一时间,阿里云的香港合作伙伴运营商听奇通被推上了风口浪尖。6月23日下午,听奇通经济财经记者就多番询问发来官方回复,承认停电,但未发声。建筑物的整体停电,以及火灾警报等因素的影响。TGC表示,2015年6月21日上午9时40分,其香港二号数据中心因停电,部分客户服务中断。听奇通最晚启动应急预案,进行抢修,下午2:00恢复部分客户服务,晚上9:50全面恢复供电。同日,所有客户服务恢复正常。现场参与抢修的一位不愿透露姓名的人士告诉记者,当时没有火警和消防因素的干扰,整栋楼都没有断电,只有部分用户受到影响。“传言称,由于大楼防火,客户无法进入数据中心处理事故。”那人说得很清楚。对于事故的处理,他说:“是停电,部分名气通用户受到影响,阿里云就是其中之一。名气通数据运营团队第一时间通知了客户,最早的客户10点前就到了。”点……”不过,当被问及为何需要12小时才恢复供电时,该人士表示,自己不是工程师,无法回答。事故的两方对事故的解释存在分歧。记者联系了香港消防局消防部门,官方回复称,为杜绝安全隐患,不排除消防系统因故障自动断电。不过,消防部门在对火灾情况进行核查后告诉财新记者报警记录显示,在21日上午9时至10时30分期间,名气通机房所在的将军澳地区并无名气气二号数据中心的记录。这意味着事故发生时,当地没有接到火警,消防处也没有人员到场处理,所谓的消防因素延误了事故的处理。业内人士也向记者分析称,所谓防火因素不合理。一位在香港数据中心工作的国内运营商人士告诉记者,名气通2号数据中心所在的香港将军澳工业村是香港最重要的数据中心集中区。建在这里。他说:“港方非常重视消防、台风等各种防灾准备工作,因为很难想象一个机房会因为防火措施而断电超过十个小时。”针对各方质疑,阿里云于6月23日晚间再次致电记者,提供了事故的更多细节。新的说法是:停电的不是整栋楼,而是机房所在楼层,而是因为物业工作人员考虑到安全问题,要求整栋楼疏散。但直到下午14:00,阿里云才得以进入机房配合IDC运营商处理事故。根据新的说法,阿里云开始修复处理事故的时间不是晚上21点22分,而是14点00分,比现在早了7个多小时。国内某大型互联网公司IT基础技术负责人向记者分析了此次停电的可能原因。他指出,即使国内互联网公司的国内机房全部切断外部电源,他们还有备用的柴油机,可以维持比较长的时间。在他看来,香港机房停电最可能的原因是电源控制设备出现故障,接上强大的外部直流电源无法切换。导致服务器大面积断电,导致服务器宕机。这种修复需要很长时间。另一种可能的原因是柴油发电机供电模块不可用或故障。不管事故原因如何,12小时的停电在业内都被认为是“时间太长”。中信建投高级分析师张广斌告诉记者,国内外数据中心停电基本有五个九的标准,即一年内99.999%的时间不允许停电。这意味着数据中心全年断电时间不能超过5分钟。这样的标准在实际操作中是很难达到的。据张广斌介绍,机房停电是国内外云服务商面临的一大难题。今年年初,国内另一家云服务公司青云也遇到了相关问题。包括亚马逊和脸书在内的外国公司都遭遇过停电。一旦断电,可能会影响到机房的硬件和云系统的软件。即使在电力恢复后,处理硬件和软件故障也需要一些时间。在他看来,停电12小时是近年来非常严重的事故:“阿里云作为一家大公司,因为用户量大,所以影响比较大。”用户不满与阿里云的信任危机阿里云用户对此次事故的质疑和不满并非来自技术,而是来自阿里云披露事实的效率和完整性。21日上午10点35分,阿里云在其博客上发布公告称,正在紧急修复故障。希望用户测试服务是否恢复正常,并通过电话或工单反馈。阿里云在随后回复记者时也表示,正与香港听奇通进行深入排查,要求其尽快完成整改,避免此类问题再次发生。同时开始对客户进行100倍赔偿。阿里云方面表示:“我们知道补偿不能解决所有问题,我们对造成阿里云香港服务中断深表歉意。云计算是一项复杂的系统工程,过程中存在各种艰难险阻。我们将继续努力消除让我们与客户一起实现云计算的梦想。”但是在阿里云等论坛上,很多用户对阿里云的后期处理非常不满意。阿里云米时代创始人童瑶告诉财新,该网站故障后无法访问,无法切换。但公司没有本地或异地备份数据,直到晚上11:00业务才恢复正常:“多次尝试重启服务器才可以正常使用,没有无缝连接一点也不。童瑶告诉财新记者,公司原来用的是腾讯云服务,感觉传输稳定性等方面阿里云更好,所以转投阿里云。但在这件事之后,他们开始考虑将部分业务签回腾讯云。事实上,由于云服务是IT基础服务,企业一旦提供平台服务,后期会波及各类普通用户。周国兴利用交易平台公司的服务在中国进行比特币交易。服务崩溃十多个小时,交易受阻,损失无法评估。更让他郁闷的是,阿里云只会赔偿平台,而平台实际上没有生意,也不计较损失。只有像他这样的最终用户才会让他们的计算机保持刷新几个小时。在他看来,像阿里云这样大的公司,在事故发生三小时后才接到设备故障通知,“非常不寻常”。#p#海外云服务模式安全吗?事实上,在阿里云出事的同时,自媒体人徐家军也曾爆料称,他使用的另一家虚拟主机提供商恒创科技的主机也瘫痪了。6月23日下午,许家军告诉记者,目前服务已恢复,但公司并未就事件作出任何公告或解释。该公司客服表示,要到6月23日晚才会回复告知事故原因的电邮。在他看来,香港主机、机房和云计算服务的问题并非独一无二。香港云服务安全值得关注。国内很多互联网公司选择香港数据中心,一方面是为了海外业务的需要,另一方面也是为了绕过内地的数据备案制度。随着创业公司的涌入和互联网公司的海外业务需求,越来越多的公司选择使用香港云服务。上述国内运营商告诉记者,香港气候炎热,台风等灾害多,因此在数据中心选址上并不具备特殊优势。但是,香港政府非常支持数据中心的建设。很多机房免费提供制冷和供电,甚至提供两台电源。此外,香港是亚太地区海底光缆的汇聚地,通信覆盖范围非常广泛。基于这样的基础设施,许多大型机和数据中心建设者选择在香港建设机房。张广斌告诉记者,由于海外业务重,美国互联网企业在设立海外数据中心时,往往会选择自建数据中心。但中国互联网企业的云服务主要服务于自身本土业务,在海外扩张时均采用租赁模式,即租用机房和数据中心,将数据中心运营交给合作伙伴以控制成本。虽然在运营过程中租赁和自建没有绝对的对比,但自建模式的内部协同效率更高。在这次事故中,阿里云和名气通的事故处理暴露出了问题。张广斌介绍,名气通作为香港煤气的子公司,依靠铺设光纤和煤气管道,在网络覆盖方面具有优势。它还在中国建立了一个数据中心:“是一家知名公司,出现这样的问题还是很烦人的。没想到。”租赁模式中合作伙伴的能力非常重要。腾讯云的合作伙伴是Equinix。腾讯云告诉财新记者,其对数据中心运营商的选择有着严格的要求:包括遍布全球的多个数据中心,拥有超过15年的全球数据中心建设和运营经验,以及多年良好的可用性记录。腾讯还强调,对IT设备等基础设施实行全年24小时轮班现场支持。但是,包括阿里和腾讯在内,在香港只有一个数据中心,还没有同城灾备系统。阿里云和腾讯云均表示,目前正准备在香港建设第二个数据中心。