简介:在国庆日,Facebook及其Instagram和WhatsApp应用程序在整个网络中应用。关闭时间将近7小时5分钟。Facebook的市场价值损失为643亿美元。在回应Facebook停机时间的问题中,我们应该如何计划,以了解云拨号测试如何帮助客户避免此类问题。
当我们享受国庆假期时,互联网世界上有一个重大的“事故”:Facebook及其Instagram和WhatsApp以及其他应用程序都停机了。关闭时间将近7小时5分钟。浏览器正在尝试打开它。显示DNS错误。这可以描述为其应用程序组的巨大损失,日常生活为35.1亿和27.6亿。根据投资机构的估计,7.68亿次停机时间超过9.68亿美元以影响成本。直接损失了Facebook的市场价值643亿美元,其创始人Mark Zuckerberg的净资产蒸发了70亿美元。
Facebook表示,失败的基本原因是常规维护工作存在问题。数据中心之间的网络流量的骨干路由器配置变化,这会导致其DNS服务器有问题并导致内部工具和系统关闭。操作和维护人员无法访问远程访问。设备可以恢复网络。因此,操作和维护人员必须使用严格的人工重新启动进入数据中心。因此,MTTR被严重拖动。
总而言之,糟糕的订单,一个有缺陷的审查工具,一组阻碍网络恢复的DNS系统以及乏味的数据中心流程导致Facebook的重大失败持续了7个小时。
具体而言,操作和维护人员执行骨干网络的网络断开连接。例行维护的部分是评估全球骨干网络容量的可用性,但无意间中断了骨干网络的所有连接,也断开了Facebook全球连接的连接数据中心。在同一时间,因为Facebook的体系结构设计是根据服务器可用性扩展或减少DNS服务。当由于网络故障而导致服务器可用性下降到零时,所有DNS服务器都将停止。骨干网络的崩溃似乎成为DNS瘫痪的原因。此中断的DNS名称服务器向Internet Border Border Gateway Gateway协议(BGP)路由器发送消息以发送消息。这些路由器存储在特定IP地址的路由信息中。这些路由器通常向路由器宣布,以使路由器了解如何正确指导流量。
Facebook的DNS服务器发送的BGP消息禁止该公告通向路由,因此该流程无法解析Facebook骨干网络上任何相应内容的流程。最终结果是,即使DNS服务器仍在运行,也无法可以访问,由于试用访问的网络崩溃,用户将失去服务。不幸的是,DNS服务用于客户的网站,他们还将其用于自己的内部工具和系统。
当我们在这里看到时,我们会发现DNS在其中起重要作用,那么DNS是什么?DNS是域名系统的缩写。域名系统以分布式数据库的形式映射域名和IP地址。简而言之,DNS用于分析域名。在普通环境中,每个用户的Internet请求将指向与DNS解析以完成Internet行为匹配的IP地址。DNS用作应用程序层协议,主要用于其他应用程序层协议,包括不限于HTTP和SMTP和FTP。它用于将用户提供的主机名分析为IP地址。具体过程如下:
(1)用户主机(PC或手机侧)DNS上运行DNS的客户端;
(2)浏览器将在接收URL中提取域字段,即访问的主机名,例如http://www.aliyun.com/,并将此主机名传输到DNS应用程序的客户端;
(3)DNS客户端向DNS服务器端发送查询消息。该消息包含要访问的主机的主机(中间包含一些列缓存查询和分布式DNS簇的工作);
(4)DNS客户端最终将收到一条答案消息,其中包含与主机名相对应的IP地址;
(5)浏览器从DNS接收IP地址后,您可以启动TCP连接到IP地址定位的HTTP服务器。
Facebook的停机时间持续了将近7个小时的停机时间,影响了约8500万用户,这是2008年以来最糟糕的情况。作为旁观者审查了这一失败,我们会发现一个非常关键的问题:但是据了解,用户继续报告相同的问题Facebook的Facebook,移动聊天服务使者,WhatsApp,图片社交服务Instagram以及其他四个主要的社交平台网站和Web网站以及图片社交服务Instagram不正确的应用程序,这使得无法刷新。在欧洲,美国和大洋洲的离线,在日本,韩国,印度和亚洲其他国家无法访问它,影响了世界各地数十个国家和地区的用户。似乎Facebook似乎没有发现这些问题在世界各地的用户和地区的反馈之后,发现了问题。
即使是庞大的Facebook等公司也没有尽快发现DNS失败并遭受严重的经济损失。由于如此失败,我们应该如何尽快发现和监视产品的运行?世界上不同国家和地区的用户?
在各种APM产品中,侵入性云拨号测试已成为最佳解决方案。AlibabaCloud Dial通过全局1000+监视点(包括真实的用户监视)进行,它每天24小时启动目标域名的网络请求,以帮助用户监视用户监视通过灵活的拨盘参数配置,用于可用和分析性能的DNS服务。用于方法和分析服务器,以尽可能模拟真实用户的访问。
经过定期的拨号任务后,阿里巴巴云拨号可以生成不同区域中DNS分辨率的报告。同时,清楚地列出了DNS请求,以获取每个拨号测试的详细信息,包括地址,DNS时间,DNS分析过程等。可以帮助用户快速分析和定位DNS分析。
此外,通过对DNS警报的配置,为了应对DNS的可用性问题和分析性能,您还可以努力维修时期,并要求该问题提高用户的满意度并减少经济损失。
资料来源:阿里巴巴云