从昨日阿里云大规模宕机，盘点近年来著名的宕机事件

时间：2023-03-16 17:59:56 科技观察

从昨天阿里云的大面积宕机事件，盘点近年著名的宕机事件IOHANG（IO不响应），经过紧急排查处理后全部恢复。阿里云方面表示，已全面排查其他地区和可用区，未发现此类情况。对于此次故障，将根据SLA协议（服务合同）尽快进行赔偿处理。不过，阿里云并未透露详细的薪酬细节。今天，小编就盘点一下近几年的大宕机事件。2017年1月26日，IBM今年年初的信誉受到影响。客户用来访问其Bluemix云基础设施（以前称为SoftLayer）网站服务的管理系统中断了几个小时。虽然底层基础设施实际上并没有发生故障，但用户发现他们无法管理他们的应用程序以及添加或删除支持工作负载的云资源。IBM表示问题是由接口升级引起的，只是间歇性的。02.2017年1月31日，GitLab极受欢迎的在线代码仓库——GibLab.com发生了18小时的服务中断，最终无法完全修复。失败的原因是一名员工在维护期间从错误的数据库服务器中删除了数据库目录。一些客户的生产数据最终丢失，包括对项目、评论和帐户的修改。该公司在事件发生后表示：“我们最合理的估计是，这影响了大约5,000个项目、5,000条评论和700个新用户帐户。”GitLabCEO在向用户道歉时表示，“生产数据的丢失是痛苦的。不可接受的”。03、2017年2月9日，InstapaperAmazonRDS服务MySQL数据库文件大小限制导致Pinterest服务器长时间宕机。随后，社交书签网站表示，其工程师从来不知道2014年4月之前创建的数据库的RDS容量限制为2TB，而AWS服务也没有发出其存储在表中的“书签”即将超过的警告极限容量。信息。一天多后，Pinterest在2016年收购的临时服务Instapaper的服务恢复了对存档材料的有限访问，同时工程师们努力恢复数据库的其他部分。Instapaper在四天后完全恢复。04.2017年2月24日，全球部分Facebook用户的Facebook账户被锁定近三个小时，让他们担心自己的账户被劫持。Facebook给出的解释是为了防止黑客错误地将用户发送到恢复界面，让用户看起来像是别人登录了自己的账户。受影响的用户无法立即重新登录。Facebook证实没有实际的安全漏洞。这是Facebook那一周遇到的第二个问题。前几天有人说看不到他们的帖子。05、2017年2月28日，AWS的宕机事件轰动一时，相信大家记忆犹新。当时，一名AWS工程师正在尝试调试亚马逊弗吉尼亚数据中心S3存储系统，却输入了错误的命令，导致包括Slack、Quora和Trello在内的众多互联网企业平台宕机4小时。亚马逊在事件发生后分析称，该员工正计划移除一小部分用于计费流程的托管子系统服务器。然而，错误的命令导致更多服务器离线，其中包括一个需要满足特定数据存储功能请求的子系统和另一个分配新存储空间的子系统。亚马逊拥有全球约三分之一的云市场，因此这次停电重新点燃了关于公共云的风险争论。06.2017年3月16日，MicrosoftAzure微软Azure公有云出现存储可用性问题超过8小时，主要影响美国东部客户。一些用户无法配置新存储或访问本地现有资源。后来，微软工程团队确定原因是由于停电导致存储集群不可用。除此之外，微软还在Azure状态页面上列出了一个软件错误，该错误会影响跨多个服务的存储配置超过一个小时。07.2017年3月21日，MicrosoftOffice365由于用户身份验证问题，部分Microsoft商业和消费者云服务，包括Office365存储和电子邮件服务无法访问。中断还导致客户无法访问OneDrive存储、Skype协作、Outlook电子邮件和XboxLive等消费产品。08、2017年5月22日，IBM云上的Lululemon热门瑜伽网站Lululemon出现服务中断问题，其CEO将主要责任归咎于IBM的托管云服务。LululemonCEOLaurentPotdevin在接受CNBC（美国国家广播公司财经频道）采访时，直接将电子商务销售的损失归咎于IBM云环境下。并表示他的团队因为这个问题已经工作了36个小时，并且已经向IBMCEOGinniRometty表达了不满。“我们正在研究我们的选择，”Potdevin在谈到IBM的云计算时说。09、2017年6月19日，主要分布在欧洲的MicrosoftSkype用户因明显的分布式阻塞服务陆续出现宕机问题。6月19日，Skype用户开始抱怨停机时间长达数小时。停电一直持续到第二天，用户无法在通信平台上连接，信息交流受阻。虽然微软没有立即确认DDoS报告，但一个名为Cyber??Team的黑客组织承认了这一事件。10、2017年6月28日，苹果iCloud多个社交媒体报道了苹果iCloud备份服务的可用性问题。Apple在其系统状态页面上表示，只有不到1%的用户iCloudBackup出现故障。受影响的个人无法从之前的备份中恢复他们的iOS设备，该问题至少持续了36小时。虽然恢复过程在修复未完成时挂起，但启动设备保护数据的新备份不是问题。11、谷歌云2月15日消息2月15日，谷歌应用开发平台数据库故障给平台客户带来诸多困扰。问题发生在中午12点左右，GoogleCloudDatastore是一个为大规模用户设计的非关系型数据库。在此事件中，GoogleAppEngine（Google的PaaS服务）的用户遇到了长达一个小时的错误和延迟。游戏玩家是此次事件的重灾区，因为许多流行的在线游戏都使用了谷歌服务。PokemonGo和Snapchat等其他应用也受到了冲击。12.AWS，2018年3月2日3月2日，AWS宕机波及大量Alexa语音助手用户，并波及Atlassian、Slack、Twilio等众多热门在线服务商。随后，亚马逊表示，其位于弗吉尼亚州的数据中心在早上遭遇了强烈的东北风袭击，导致网络连接出现问题。这场风暴切断了AWS北弗吉尼亚地区与东海岸两家运营商Equinix和CoreSite的联系。13、MicrosoftOffice365，2018年4月6日4月6日，欧洲、亚洲和美国的大量微软客户的电子邮件账户出现问题。其中，英国受影响最大。由于Office365宕机，很多公司无法发送邮件和登录Skype。一些用户报告说，他们只能使用单点登录来登录这些办公生产力套件。具有讽刺意味的是，这一事件发生在微软发布新的Office365安全功能的一天后。14.AWS，2018年5月31日5月31日，由于北弗吉尼亚地区数据中心的硬件问题，这家云计算巨头再次出现连接问题。影响时间约为30分钟，在此期间用户反映由于硬件错误无法完全恢复所有数据。AWS在其善后报告中写道，停电是“由数据中心的一些物理服务器和一些网络设备上的电气事件引起的”。AWS的核心EC2服务、Workspaces虚拟桌面服务和Redshift数据仓库服务均受到影响。15.MicrosoftAzure，2018年6月17日17日和18日，热浪导致的存储和网络中断使欧洲的许多Microsoft云客户与其数据中断了五个多小时。微软表示，在爱尔兰特别炎热的夏季，其位于爱尔兰的一个数据中心的温度控制系统出现了问题。16.谷歌，2018年7月17日7月17日下午，谷歌云服务中断导致Spotify、Snapchat等热门服务不得不再次中断。谷歌表示，他们在中午之前已经意识到其均衡器存在问题。此次中断影响了谷歌的开发平台AppEngine、CloudNetworking和Stackdriver，这些平台旨在为公共云用户提供性能和数据诊断。此后，谷歌发布更新称，该事件引发的502问题已于下午1点05分得到解决。17、亚马逊，2018年7月16日与国内电商的双十一一样，亚马逊也在美国打造了自己的购物节亚马逊黄金日（AmazonPrimeDay）。但在7月16日第四届年度亚马逊Prime会员日开幕式结束后几分钟，一次大规模停电导致销售额下降。AWS发言人表示，这些问题与AWS无关。但对于一个全球电子商务网站来说，失败就是失败，而这个网站托管在号称世界领先的云上。许多消费者在高潮和低谷时进来，只是收到停电通知。但尽管如此，这个客户日的销售业绩还是打破了记录。18.微软，2018年9月5日微软在9月的短短一周内发现自己在两个方面陷入困境。一、9月5日，全球用户部分时间无法访问365Outlook或SkypeforBusiness。用户报告说，当他们尝试登录Microsoft时，他们收到一条错误消息，上面写着“受限”。微软将此次中断归咎于Azure后端身份验证系统的更新问题。同时，在4日至5日的两天时间里，微软位于圣安东尼奥的数据中心遭遇雷击，导致美国中南部地区的Azure和Office365服务中断。19.FacebookNovember12andNovember20,2018对于这家社交网络巨头来说，11月是一个糟糕的月份，两次宕机影响了大量企业协作产品用户。包括Workplace协作工具在内的Facebook服务于11月12日出现故障，并在服务恢复前收到了数千条投诉。一时间，“FacebookDOWN”成为推特上的热门话题。仅仅一个多星期后，即11月20日，Facebook又遭遇一次故障，这是自8月以来的第三次重大故障。四分之三的用户报告说，从早上8:00到下午早些时候，他们经历了普遍的中断或登录困难。20、微软，2018年11月18日据微软称，11月18日，部分用户无法登录Azure和Office365服务。此次中断影响了许多需要身份验证才能登录云服务的用户，这些用户遍及欧洲、亚太地区和美洲。它从晚上11点39分开始影响Azure和Office365服务。当地时间周日。

上一篇：如何使用NetworKit进行大型网络的安全分析

下一篇：NVIDIA携手合作伙伴建立中国DPU和DOCA卓越中心，为开发者提供更好服务

从昨日阿里云大规模宕机，盘点近年来著名的宕机事件相关文章