当前位置: 首页 > 科技观察

人们可以从Facebook的中断中学到什么

时间:2023-03-19 14:28:15 科技观察

据报道,Facebook的主要业务在10月4日星期一发生了重大中断。对于负责构建和维护其技术和应用程序的人员来说,这种大规模中断是不堪重负的。虽然停电对Facebook来说并不是什么新鲜事,但这次停电肯定会载入公司的历史。FacebookInc.于10月4日晚发表简短声明,主要是驳斥社交媒体上传播的阴谋论。导致停机的更多细节后来于10月5日公布。该公司的一篇博文基本上证实了人们已经知道的事情,正如Cloudflare所详述的那样:Facebook以某种方式设法阻止了从外部互联网到运行Facebook、Instagram、WhatsApp的服务器的流量,和其他属性。方式,并进行了日常维护。Facebook运营着一个庞大的设施网络,包括它自己的数据中心以及世界各地称为“存在点”的较小数据中心设施,这些设施收集入站流量并通过Facebook的专用网络分发该数据。最终目的地的指南。服务器和网络设备由于各种原因容易出现故障,检查网络故障是工程人员日常工作的一部分。但在10月4日上午,不知何故进行了例行检查,并作为命令,将Facebook的所有连接从其骨干网络中撤出。该公司在其发布的一篇帖子中表示,一个本应检测配置更改中潜在灾难性错误的审计工具失败了,因为审计工具中的一个错误阻止了它中止发出的命令。使问题更加复杂的是Facebook运营基础设施的选择,而很久以前就其内部基础设施做出的决定使得从这个错误中恢复过来比其他公司要困难得多。FacebookInc.几乎完全依赖自己的基础设施和定制服务来满足其运营所需的几乎所有需求,这与至少部分使用第三方提供的基础设施的具有相同规模和资源的其他技术公司形成鲜明对比提供商。需要。这包括在较小的接入点设施上运行的DNS服务器。这些服务器告诉FacebookInc.的数据中心对其内容的传入请求来自何处,并为请求“facebook.com”的浏览器提供到该目的地计算机的路径。Facebook的DNS服务器旨在告知“facebook.com”的传入请求,如果它们检测到某条路径存在问题,则避开通往数据中心的某些路径,因为长时间延迟会导致糟糕的用户体验。一般情况下,工作路径比失败路径多很多,很容易找到快速绕行的路径。然而,当所有这些路径都消失时,那些正常运行的DNS服务器不知道Facebook的服务器在哪里,迫使它们向手机和浏览器返回错误消息。让事情变得更加困难的是,Facebook的内部通信和灾难恢复工具依赖于与容纳这些DNS服务器的设施的连接。到目前为止所描述的一切都发生在10月4日早上大约两分钟的时间内。重要的是,Facebook需要从这个网络规模的错误中迅速恢复,而这种恢复比以往任何时候都更加艰难。并且由于不明原因,Facebook与其服务器的带外连接(主网宕机时的正常备份计划)也失败了。这意味着需要对其数据中心设施进行物理访问才能解决该问题。虽然Facebook实际上不需要修改其服务器基础设施来解决问题,但确保允许专业人员进入最近的数据中心并处理相关的服务器故障所花的时间比人们想象的要多。每次中断都是一次学习机会,即使对于像Facebook这样似乎不愿意从其他领域的错误中吸取教训的公司来说也是如此。以下是从该事件中吸取的三个教训:做好最坏的打算。企业需要制定应急计划以应对计算资源或网络连接的完全丢失,而不仅仅是数据中心或云计算区域的故障。使用多个服务提供商的服务。虽然互联网整体瘫痪的可能性极小,但值得使用多家云计算服务商的云计算服务。检查您的优先事项。如果没有广泛的自动化,就无法实施FacebookInc.规模的运营,这意味着代码审计工具(例如未能防止中断的工具)需要格外注意。