当前位置: 首页 > 科技观察

从Amazon最新云停机事故中学到的三个教训_0

时间:2023-03-14 19:28:48 科技观察

从亚马逊最近的云服务中断中吸取的三个教训就在上周日早上,亚马逊网络服务数据中心发生了相当严重的事故。美国东部时间早上6点,该公司名为DynamoDB的大型NoSQL数据库负责AWS东弗吉尼亚地区的负载,其使用量激增——顺便说一下,东弗吉尼亚地区是该公司历史最悠久、规模最大的***九个全球区域之一。到当天早上7点52分,AWS确定了问题的根本原因:数据库的元数据管理机制出现问题,直接影响了其服务的分区和表。AmazonWebServices的AmazonWebServices健康仪表板显示了周日中断事件的时间线以及问题的根本原因。由于AWS服务使用了极其复杂的互连机制,因此该问题激增至健康仪表板监控的总共117个服务类别中的34个。从ElasticCompupteCloud(弹性计算云,简称EC2)到虚拟机,再到Glacier存储服务再到RelationalDatabaseService(即关系数据库服务)都受到影响。据媒体报道,其他使用AWS解决方案的企业客户也受到了影响,包括Netflix、IMDB、Tinder、Pocket、Buffer等知名企业。截至周日中午,AWS报告称问题已得到解决,但与此同时,推特等社交平台上却出现大量吐槽和吐槽。那么我们应该从这次事故中吸取什么教训呢?让我们讨论三个关键点。1、当云服务巨头也跌跌撞撞时,AmazonWebServices目前是公有IaaS云领域当之无愧的王者——虽然微软似乎对这类业务投入了巨资,但似乎仍无法撼动亚马逊的强势地位。上周日的事件提醒我们,即使是规模最大、经验最丰富的云服务提供商,也可能会遇到意想不到的惊喜。2.时刻做好停机准备考虑到即使是市场上最成熟的云解决方案仍然有可能——或者实际遇到长达六个小时的服务停机——客户应该提前做好准备。AWS长期以来一直建议客户规划自己的系统,以便更主动地处理虚拟机或其他服务可能出现的停机时间。来自DownDetector.com的图表显示,Netflix在周日早上报告的错误比平时多得多。不过,据该公司发言人称,其服务并未受到重大影响。作为亚马逊最大和最知名的云服务客户之一,Netflix通过发言人强调,中断对其服务的影响已控制在最低限度,因为它自动将工作负载从陷入困境的美东地区设施迁移到其他健康区域。任何使用AWS托管关键业务应用程序的客户都应该对系统架构进行调整,以确保在相关云服务出现意外情况时能够采取适当的措施。Netflix还开发了一系列开源工具,旨在帮助对其系统进行随机崩溃测试。尽管Netflix并未承认其客户受到该事件的严重影响,但一家第三方中断跟踪网站报告称,Netflix在周日上午的服务中断频率远高于正常水平。也就是说,即使是准备充分的高级客户也无法完全避免云服务中断的影响。3.“没有不可预测这回事。”福布斯网站的一位博主认为,服务中断不会改变云计算未来的流行趋势。我个人基本同意这个观点。如果你是AWS的拥护者,肯定会从积极的角度看待这起事件。例如,停电频率比过去低得多。如果客户采用AWS推荐的最佳实践,那么这些事故就不会造成损害。影响太大等等。然而,从另一个角度来看,像上周日这样的中断将成为强有力的证据,表明不愿将工作负载转移到公共云的客户将变得更加顽固。事实上,中断是不可避免的,它可能发生在公共云服务、任何提供商,甚至是企业自己运行的内部数据中心。而这就是IT事务的本质和宿命,所以一味强调公有云的可用性问题确实不客观。原作者:BrandonButler原标题:亚马逊最新云服务中断的3大要点