当前位置: 首页 > 科技观察

又一家云服务商被断光缆AWS中国瘫痪近12小时

时间:2023-03-14 17:14:02 科技观察

从凌晨2点到下午1点48分,亚马逊的云服务商AWS中国度过了漫长的11小时48分钟。作为AWS中国的一名员工,方媛(化名)一大早就被一个电话吵醒。一个创业公司的客户来投诉说他的app连不上服务器。事情比方源想象的还要严重。挂断电话后,方源发现公司的微信群已经炸了。根据AWS中国官方说法,由于连夜修路时多条光缆被切断,导致可用区无法联网,导致AWS中国业务出现大规模故障。包括方源在内的员工们,也是一头雾水。断几条光缆,怎么会影响整个北京地区那么多业务?每个用户都受到不同程度的影响。亚马逊中国官网(www.amazon.cn)页面也一度崩溃。因为恰逢6.18促销,流利说的助教张峰(化名)忙着宣传自己的促销信息。这边,张峰刚给学员们介绍了自己的课程计划,就被学员微信告知,流利说APP的定制课程根本打不开。很快,张峰就接到了公司的紧急通知,因为公司的云计算服务提供商AWS出现故障。接下来,张峰的工作重心就得放在安抚各路学生上了。直到下午1点多,张峰才开始群发消息,通知同学们APP“服务”已经逐步恢复。类似的尴尬在VIPKID的各个家长群中同时上演。一位客户在微信上评论道:“这是我职业生涯中经历过最长的一次故障修复时间,AWS处理这次事故的时间效率太低了,我很失望。”为了保证服务不中断,数据不丢失,一般业务系统和数据都有多重备份。在云计算中,为了保证数据中心业务系统的可用性,数据中心基础设施也会采用类似的冗余备份来提高系统可用性。有业内人士认为,此次AWS光缆被剪断导致大范围服务瘫痪近12小时,是因为网络冗余设计没有做好。网络冗余设计主要采用冗余措施建立网络链路和网络设备。网络链路冗余是指在主线路之外部署第二、第三线路,以保证业务的正常运行。主备线路位置比较远,一旦主线路出现故障,还有其他线路保证网络的可用性。比如上网,同时使用不同电信运营商的线路,互相备份,互不影响,但这样一来,成本也会增加。据悉,AWS北京区域使用的是光环新网的数据中心。记者多次拨打光环新网客服电话,均无法接通。据光环新网官网显示,该公司在北京拥有酒仙桥、太和桥、仙谷、东直门、房山、亦庄6个数据中心,每个数据中心总BGP出口带宽高达100G,多运营商通讯链接。“本来在一个机房,每个运营商的链路应该有自己的连接方式。但是,也有可能是机房在施工时先把每个运营商聚合到一条主线上,到达某个节点后再分开。但是冗余“是有成本的,并不是所有场景下的所有链路都是冗余的。对于云厂商来说,网络线路都是运营商租的,都是钱。”上述业内人士指出。由于光纤电缆被切断而导致服务中断的情况并不少见。2015年,因当地市政施工方挖光缆,导致支付宝PC端网页和手机客户端均无法登录,网络不正常。后来支付宝改成了冗余设计。在2018年9月的云栖大会上,蚂蚁金服发布了“三地五中心金融级高可用解决方案”,并现场演示了“剪网线”。26秒后,完成容灾切换,业务恢复。但在2018年7月,由于腾讯云广州1区两家运营商的主备网络链路同时中断,导致腾讯云广州区部分用户出现资源访问失败、控制台登录异常等问题。2019年3月,腾讯旗下多项服务出现服务器无响应问题。随后,腾讯云发布公告称,由于上海南汇网络的光纤因施工意外被切断,该地区多家互联网公司的业务受到不同程度的影响。由于有备份链路,腾讯云第一时间启动了流量智能调度系统,将上海的公网流量通过腾讯云内部的T级骨干网引导到腾讯云广州区的电信出口,再直达浙江电信来自电信骨干网。从发现光纤故障到修复光纤故障仅需2分钟,所有流程自动执行,150秒内快速恢复网络。但是,即使有冗余备份,也不会对业务没有影响。“后备环节普遍较慢,小路上人多,自然拥挤,体验也慢。”一位云服务商告诉记者。.此前,UCloud创始人兼CEO季新华曾表示,“云计算公司有四大谎言,即云计算先服务内部客户,再服务外部客户;云计算可以保证100%的安全;云计算消耗大量资金;计算是不赚钱的。”“虽然云计算比本地研发更安全,但也不能做到100%。连微软、亚马逊、谷歌、阿里、腾讯都会出问题。因此,用户更愿意使用多云进行服务,多云战略是未来的一个重要方向。他指出。也有厂商呼吁,随着云计算和数据中心越来越重要,光缆、管道等基础设施的保护也需要跟上。现在销毁的成本太低了。