2018年公有云服务模式更加成熟,云计算主流公有云无一幸免。IDC今年7月发布的《中国公有云服务市场半年度跟踪报告》数据显示,阿里云的市场份额已经超过45%,腾讯云达到10%。在全球市场,根据Gartner***数据,亚马逊AWS占据全球51.8%的份额;微软Azure位居第二,占比13.3%;阿里云排名第三,占比4.6%;谷歌云云服务排名第三,占比3.3%;其次是IBM,占1.9%。可以看出,这几大主流云提供商占据了全球大部分市场。云服务一旦宕机,将影响无数企业。2018年,云计算市场在发展迅猛的同时,问题也不断。云提供商与开源社区之间的冲突不断升级。主流云厂商也难逃宕机事件。更有什者,一年内出现多次服务宕机,导致企业对公有云的信心不断下滑。本文总结了2018年前十大云宕机事故,欢迎大家补充自己经历过的云服务至暗时刻。1月18日:谷歌云自动化故障导致宕机详情:2018年1月18日,谷歌云自动化机制发生故障,导致其us-central1和europe-west3可用区的计算引擎宕机93分钟。谷歌对此的回应是,“网络编程故障”导致Autoscaler服务无法正常运行,这意味着新的或新迁移的VM无法联系其他可用区中的VM。处理方法:工程组手动切换到替换任务,使数据持久层恢复正常运行。停机时间:93分钟事件后续:谷歌承诺,未来如果配置数据过时,谷歌将停止虚拟机迁移,数据持久层将在长时间内重新解析对端运行过程,使故障可以快速切换到更换任务。3月2日:AWS宕机导致部分Alexa失声事故详情:2018年3月2日凌晨,部分依赖AWS服务的Alexa开始出现失声现象。系统中已经内置了道歉功能。在接下来的几个小时里,Alexa又收到了数千起投诉。据了解,Alexa的失败源于亚马逊AWS的网络服务出现问题。其他依赖AWS作为骨干网络的应用也在当天受到影响,包括软件开发公司Atlassian和云通信公司Twilio。补救措施:这是由AmazonAWS的在线支持团队修复的。宕机时间:几个小时(由于事件发生在凌晨,***时间未发酵)事件后续:亚马逊AWS并未详细说明故障原因,仅透露与网络连接有关.5月31日:AWS北弗吉尼亚地区数据中心出现硬件问题事件详情:2018年5月31日,由于北弗吉尼亚地区数据中心的硬件故障,AWS再次出现连接问题。在此次事件中,AWS的核心EC2服务、Workspaces虚拟桌面服务、Redshift数据仓库服务均受到影响。补救措施:人工修复停机时间:约30分钟后续:AmazonS3副总裁兼总经理Mai-LanTomsenBukovec近日接受采访时表示,亚马逊从未出现过数据中心崩溃的情况。这意味着过去的每一次事故都没有让整个数据中心宕机,AWS也在系统设计层面进行了改进,以防止此类事故的发生。6月17日:MicrosoftAzure爱尔兰数据中心宕机详情:2018年6月17日至18日,由于爱尔兰数据中心恒温系统出现问题,MicrosoftAzure受到高温影响,导致存储和网络中断。停机时间:5小时以上。6月27日:阿里云故障。事故详情:2018年6月27日16时21分左右,阿里云出现重大技术故障,16时50分开始恢复。官方故障时间约30分钟,恢复时间约1小时。经过技术审查,阿里给出了故障原因,工程师团队在上线新的自动化运维功能时进行了变更验证操作。该操作在测试环境中没有造成任何问题,但上线后触发了未知bug。补救措施:手动干预以定位和修复问题。停机时间:30分钟,恢复时间大约需要一个小时。事件后续:本次事件定义为S1级,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发表官方声明,表示“这次失败没有任何借口,我们不能也不应该犯这样的错误!我们将认真检讨和完善自动化运维技术和发布验证流程,尊重每一行代码和每一份委托。》7月20日:腾讯云硬盘故障详情:2018年8月5日,北京青博数控技术有限公司(以下简称“前沿数控”)在其官方微博上发布了一篇名为《腾讯云给一家创业公司带来的灾难》的博文,文章显示,2018年7月20日,腾讯云的云硬盘出现故障(腾讯云后面给出的事故原因),导致公司存储的所有数据丢失,无法恢复。长期推广导流积累的精准注册用户和内容数据补救措施:腾讯云表示监测到异常情况后第一时间将故障状态告知用户,并第一时间组织文件系统专家联系技术专家联合厂商试图修复数据,但经过多方努力,部分数据完整性验证仍然失败。事后:腾讯云提出“补偿+补偿”方案,亲mised继续与“FrontierCNC”沟通,帮助其恢复营业。7月24日:腾讯云宕机事故详情:2018年7月24日,用户登录腾讯云时多次超时退出。即使换了运营商,结果也是一样的。随后,腾讯云发布公告称,初步判定运营商光缆中断。运营商已找到断点并正在连接。受影响的主要是广州地区的部分用户。补救措施:运营商第一时间介入抢修。Downtime:停机时间机器时间未知,恢复时间需要30到40分钟。宕机,不仅电商业务受损,亚马逊其他产品和服务也受到不同程度的影响。亚马逊对此的解释是,AWS管理控制台存在全球性问题。停机时间:故障持续近6小时。事件后续:AWS发言人表示,间歇性的AWS管理控制台问题并未对亚马逊的消费者业务造成任何实质性影响。9月4日:微软Azure数据中心遭雷击,宕机详情:9月4日上午,美国微软Azure中南区数据中心附近出现雷击等恶劣天气,影响冷却系统电压,导致多个Azure服务出现连接问题,使客户难以访问存储在该地区数据中心的资源。受影响的服务包括Office36***ctiveDirectory、VisualStudioOnline、VisualStudioTeamServices等。补救措施:9月5日上午,微软工程师已经恢复了数据中心和大部分网络设备的供电,其他服务也在恢复中。宕机时间:超过24小时11月9日:谷歌公有云下的Kubernetes服务(GKE)宕机。事故详情:11月9日,谷歌公有云提供的Kubernetes服务(GKE)节点池构建功能出现异常,维护人员无法通过CloudConsoleUI新建节点。补救措施:谷歌派出工程团队调查故障原因并着手修复。谷歌表示,受影响的企业用户可以先使用GCP内置的gcloud命令构建新的Kubernetes节点。宕机时间:近19小时写在***对于很多中小企业来说,自建机房的人力和维护成本太高,希望利用低成本、可扩展性、可靠性和便利性云计算,但担心风险。这些风险通常是相同的,例如安全漏洞、监管问题以及缺乏关于如何构建安全的云计算基础设施的知识。在过去的几年里,云提供商也经历了几次大大小小的失败,这也说明企业的担心并不是多余的。随着越来越多的企业和政府机构将他们的数据转移到云端,即使是很小的中断也可能带来灾难。即使是提供99.9%可靠性的阿里云,仍然有0.1%的停机时间。考虑到企业的这些需求,现在混合云的趋势更加明显,很多公有云厂商都在布局混合云市场。借助混合云,企业可以在降低成本的同时提高生产力,而无需完全投资于公共云。但是,混合云也存在兼容性和安全合规性挑战。因此,为了将故障造成的损失降到最低,企业不仅要建立完善的容灾系统,还要定期对容灾系统进行演练。
