当前位置: 首页 > 科技观察

数字灾难!2016年九大服务宕机事件汇总

时间:2023-03-23 09:52:59 科技观察

【.com快译】2016年接二连三的宕机事件让众多知名品牌损失惨重,商业信誉和消费者信心也受到重创。停机的主要原因之一是计划外的系统配置更改,通常是因为即时错误或对潜在系统安全漏洞的修复意外触发了更严重的问题。为避免意外停机,我们在此回顾过去一年中最严重的服务中断事件,希望以此为鉴,指导新一年的业务连续性保障工作。美国西南航空在去年10月发生了836条西南航空航线延误,根本原因是该公司的飞行技术系统出现了问题。据该公司称,技术人员不得不争先恐后地修复主要系统并利用备份程序来帮助客户及其托运行李正确到达目的地。达美航空达美航空证实,亚特兰大局部停电影响了其从凌晨开始的系统更新,最终导致计算机系统瘫痪和大量航班延误。该公司还警告称,周一将被迫取消大量航班,机场屏幕和其他航班状态系统将无法正常显示航班相关信息。据统计,5小时的停运共导致2000个航班取消,估计总损失达1.5亿美元。云应用厂商Salesforce在官网指出,其NA14实例上的一组数据库存在文件完整性问题,导致服务宕机超过12小时。据统计,此次停机造成的经济损失约为2000万美元。苹果去年6月,苹果下架的iCloud、AppStore、iTunes和AppleTV等一系列互联网服务发生了长达9小时的宕机事故。此外,去年12月初,用户还发现自己的iCloud账户暂时无法登录。Slack去年6月,由于Web服务器在2小时内超载,导致多达300万用户无法正常访问Slack。公司目前正在商讨如何避免类似问题再次发生。身份是解决问题的关键为了避免停机,IT运营团队应该对现有服务进行分层,同时使系统身份成为业务中的关键因素。其中,最好的应用程序应该是那些直接关系到业务成败的重要应用程序,例如销售点、票务或计费相关的应用程序。为最好的系统制定一个故障转移计划高可用性水平不可能自然而然地达到,我们必须计划和实施它们。具体来说,高可用性是基于系统架构的各个方面。***系统需要切合实际地适应故障转移计划,同时利用额外的负载能力来处理意外的负载峰值。投资高层次的监控栈如果不能掌握服务当前的健康状态,那么就无法保证服务的健康状态。事实上,准确了解IT系统运行状态的唯一方法是在堆栈的各个层面引入先进的监控工具(如系统监控、应用程序监控、Web和用户监控、日志记录和错误跟踪解决方案)。目前,IT行业正在积极使用这种分层的功能独立解决方案来取代原有的整体服务监控机制,以适应IT系统不断增加的复杂性和动态水平。警报机制中用于区分有效信号和虚假信号的工具数量的增加也意味着我们需要处理更多的虚假信号。为了有效地识别、分类和解决潜在问题,IT团队必须找到一种方法来正确地将有效信号与干扰信号分开。通过采用警报关联解决方案,IT团队将能够了解来自各种监控工具的警报信息之间的联系,从而快速过滤掉非关键问题,最终关注最重要的风险因素。原标题:Techoutagesof2016andhowtopreventthemin2017原作者:RyanFrancis