盘点2018年十大云宕机事故：主流公有云无一幸免

时间：2023-03-19 21:57:38 科技观察

2018年公有云服务模式更加成熟，云计算主流公有云无一幸免。IDC今年7月发布的《中国公有云服务市场半年度跟踪报告》数据显示，阿里云的市场份额已经超过45%，腾讯云达到10%。在全球市场，根据Gartner***数据，亚马逊AWS占据全球51.8%的份额；微软Azure位居第二，占比13.3%；阿里云排名第三，占比4.6%；谷歌云云服务排名第三，占比3.3%；其次是IBM，占1.9%。可以看出，这几大主流云提供商占据了全球大部分市场。云服务一旦宕机，将影响无数企业。2018年，云计算市场在发展迅猛的同时，问题也不断。云提供商与开源社区之间的冲突不断升级。主流云厂商也难逃宕机事件。更有什者，一年内出现多次服务宕机，导致企业对公有云的信心不断下滑。本文总结了2018年前十大云宕机事故，欢迎大家补充自己经历过的云服务至暗时刻。1月18日：谷歌云自动化故障导致宕机详情：2018年1月18日，谷歌云自动化机制发生故障，导致其us-central1和europe-west3可用区的计算引擎宕机93分钟。谷歌对此的回应是，“网络编程故障”导致Autoscaler服务无法正常运行，这意味着新的或新迁移的VM无法联系其他可用区中的VM。处理方法：工程组手动切换到替换任务，使数据持久层恢复正常运行。停机时间：93分钟事件后续：谷歌承诺，未来如果配置数据过时，谷歌将停止虚拟机迁移，数据持久层将在长时间内重新解析对端运行过程，使故障可以快速切换到更换任务。3月2日：AWS宕机导致部分Alexa失声事故详情：2018年3月2日凌晨，部分依赖AWS服务的Alexa开始出现失声现象。系统中已经内置了道歉功能。在接下来的几个小时里，Alexa又收到了数千起投诉。据了解，Alexa的失败源于亚马逊AWS的网络服务出现问题。其他依赖AWS作为骨干网络的应用也在当天受到影响，包括软件开发公司Atlassian和云通信公司Twilio。补救措施：这是由AmazonAWS的在线支持团队修复的。宕机时间：几个小时（由于事件发生在凌晨，***时间未发酵）事件后续：亚马逊AWS并未详细说明故障原因，仅透露与网络连接有关.5月31日：AWS北弗吉尼亚地区数据中心出现硬件问题事件详情：2018年5月31日，由于北弗吉尼亚地区数据中心的硬件故障，AWS再次出现连接问题。在此次事件中，AWS的核心EC2服务、Workspaces虚拟桌面服务、Redshift数据仓库服务均受到影响。补救措施：人工修复停机时间：约30分钟后续：AmazonS3副总裁兼总经理Mai-LanTomsenBukovec近日接受采访时表示，亚马逊从未出现过数据中心崩溃的情况。这意味着过去的每一次事故都没有让整个数据中心宕机，AWS也在系统设计层面进行了改进，以防止此类事故的发生。6月17日：MicrosoftAzure爱尔兰数据中心宕机详情：2018年6月17日至18日，由于爱尔兰数据中心恒温系统出现问题，MicrosoftAzure受到高温影响，导致存储和网络中断。停机时间：5小时以上。6月27日：阿里云故障。事故详情：2018年6月27日16时21分左右，阿里云出现重大技术故障，16时50分开始恢复。官方故障时间约30分钟，恢复时间约1小时。经过技术审查，阿里给出了故障原因，工程师团队在上线新的自动化运维功能时进行了变更验证操作。该操作在测试环境中没有造成任何问题，但上线后触发了未知bug。补救措施：手动干预以定位和修复问题。停机时间：30分钟，恢复时间大约需要一个小时。事件后续：本次事件定义为S1级，即核心业务重要功能不可用，影响部分用户，造成一定损失。阿里云发表官方声明，表示“这次失败没有任何借口，我们不能也不应该犯这样的错误！我们将认真检讨和完善自动化运维技术和发布验证流程，尊重每一行代码和每一份委托。》7月20日：腾讯云硬盘故障详情：2018年8月5日，北京青博数控技术有限公司（以下简称“前沿数控”）在其官方微博上发布了一篇名为《腾讯云给一家创业公司带来的灾难》的博文，文章显示，2018年7月20日，腾讯云的云硬盘出现故障（腾讯云后面给出的事故原因），导致公司存储的所有数据丢失，无法恢复。长期推广导流积累的精准注册用户和内容数据补救措施：腾讯云表示监测到异常情况后第一时间将故障状态告知用户，并第一时间组织文件系统专家联系技术专家联合厂商试图修复数据，但经过多方努力，部分数据完整性验证仍然失败。事后：腾讯云提出“补偿+补偿”方案，亲mised继续与“FrontierCNC”沟通，帮助其恢复营业。7月24日：腾讯云宕机事故详情：2018年7月24日，用户登录腾讯云时多次超时退出。即使换了运营商，结果也是一样的。随后，腾讯云发布公告称，初步判定运营商光缆中断。运营商已找到断点并正在连接。受影响的主要是广州地区的部分用户。补救措施：运营商第一时间介入抢修。Downtime：停机时间机器时间未知，恢复时间需要30到40分钟。宕机，不仅电商业务受损，亚马逊其他产品和服务也受到不同程度的影响。亚马逊对此的解释是，AWS管理控制台存在全球性问题。停机时间：故障持续近6小时。事件后续：AWS发言人表示，间歇性的AWS管理控制台问题并未对亚马逊的消费者业务造成任何实质性影响。9月4日：微软Azure数据中心遭雷击，宕机详情：9月4日上午，美国微软Azure中南区数据中心附近出现雷击等恶劣天气，影响冷却系统电压，导致多个Azure服务出现连接问题，使客户难以访问存储在该地区数据中心的资源。受影响的服务包括Office36***ctiveDirectory、VisualStudioOnline、VisualStudioTeamServices等。补救措施：9月5日上午，微软工程师已经恢复了数据中心和大部分网络设备的供电，其他服务也在恢复中。宕机时间：超过24小时11月9日：谷歌公有云下的Kubernetes服务（GKE）宕机。事故详情：11月9日，谷歌公有云提供的Kubernetes服务（GKE）节点池构建功能出现异常，维护人员无法通过CloudConsoleUI新建节点。补救措施：谷歌派出工程团队调查故障原因并着手修复。谷歌表示，受影响的企业用户可以先使用GCP内置的gcloud命令构建新的Kubernetes节点。宕机时间：近19小时写在***对于很多中小企业来说，自建机房的人力和维护成本太高，希望利用低成本、可扩展性、可靠性和便利性云计算，但担心风险。这些风险通常是相同的，例如安全漏洞、监管问题以及缺乏关于如何构建安全的云计算基础设施的知识。在过去的几年里，云提供商也经历了几次大大小小的失败，这也说明企业的担心并不是多余的。随着越来越多的企业和政府机构将他们的数据转移到云端，即使是很小的中断也可能带来灾难。即使是提供99.9%可靠性的阿里云，仍然有0.1%的停机时间。考虑到企业的这些需求，现在混合云的趋势更加明显，很多公有云厂商都在布局混合云市场。借助混合云，企业可以在降低成本的同时提高生产力，而无需完全投资于公共云。但是，混合云也存在兼容性和安全合规性挑战。因此，为了将故障造成的损失降到最低，企业不仅要建立完善的容灾系统，还要定期对容灾系统进行演练。

上一篇：计算机视觉技术即将迎来重大变革

下一篇：数字货币时代会到来吗？

盘点2018年十大云宕机事故：主流公有云无一幸免相关文章