当前位置: 首页 > 科技观察

全球F、E根服务器瘫痪,BGP路由宕机:都是bug造成的!

时间:2023-03-14 11:46:00 科技观察

一项调查提出了有关私人与公共网络管理的棘手问题。根据互联网系统联盟(ISC)本周发布的一份报告,Cloudflare发布的软件包含一个错误,该错误导致互联网基础设施的核心部分出现故障。ISC运行着所谓的F根(F根)服务器,它是全球13台根DNS服务器之一,标记为A到M。这些服务器是支撑全球互联网的中央计算机:例如,它们确保当您访问yuntoutiao.com时,您将被引导至为我们的主页提供服务的正确系统。今年1月23日,ISC收到反映.net域名失效的报告。它的调查发现,将.net域名绑定到IPv4和IPv6网络地址的关键A和AAAA记录丢失了。事实上,所有以.net结尾的互联网地址都已从ISC的F根服务器中消失,.net是互联网上注册最多的域名之一,拥有1340万个域名。任何最终依赖F根服务器连接到众多网站和服务的浏览器、应用程序、计算机或设备将无法通过其.net地址访问这些系统,这是最糟糕的情况。问题也不限于ISC的F根服务器。报告称,NASA运营的E-root服务器也遇到了类似的问题。Bugfixes从响应时间来看,ISC在五分钟内迅速弄清楚了情况:问题出在它与Cloudflare合作运营的一个互联网节点上,并向互联网基础设施公司报告了这个问题。Cloudflare也迅速采取行动,在21分钟内将罪魁祸首查明为修复四小时前引入的错误而发布的特定代码。不过,报道话锋一转,提到了脆弱的边界网关协议(BGP):互联网错综复杂的庞大网络,利用BGP自动组织管理彼此,维护彼此之间的连接。无论如何,撤回导致该问题的BGP公告花费了将近两个小时,ISC指出本应更早完成这项工作。在“经验教训”部分,报告写道:“回想起来,我们应该在发现BGP提供不完整/不正确的数据时立即从BGP中撤回路由前缀。报告继续说:“撤回路由没有按预期工作,因此Cloudflare和ISC同意执行定期测试以实现此功能......测试套件已更新以添加针对缺失A记录和AAAA记录的测试,ISC和Cloudflare将努力设计进一步的一致性测试。“资金负责,稳定性是不可能的。由于全球DNS的工作方式,信息通过名称服务器、冗余配置和缓存的分布式层次结构一直向下传输,并且每隔几小时到几秒钟在全球范围内更新一次。影响绝对微乎其微。由于E-root和F-root服务器暂时关闭,许多浏览器和应用程序不得不寻找另一种方式来查找.net地址。然而,情况很严重,主要是由于公共互联网的全球寻址系统。底层基础被一家私营公司的一个不起眼的软件更新搞砸了。软件更新是由Cloudflare完成的,Cloudflare是一家结合使用开源和闭源软件的商业组织。尽管经历了数十年的迅猛发展,互联网仍然保持着较高的正常运行时间,这也归功于其使用开源软件、精心检查和测试更新以及不受商业考虑的维护者组织的传统。就像高级互联网工程师BillWoodcock在Twitter上指出的那样:“当公共互联网的关键功能被私人公司的利益剥夺时会发生什么?透明度和问责制丧失,基础设施支出削减,系统崩溃。这个问题也不是学术问题.Woodcock最近对将.org出售给一家未具名的私募股权公司敲响了警钟,该公司为管理.org的互联网注册管理机构提供技术后端服务。受利益驱动,他得出结论认为技术支出可能会大幅削减,引发担忧关于这个重要域名注册管理机构的稳定性。他就此问题写信给DNS监管机构ICANN,建议停止出售提议而且他不是唯一表达担忧的互联网工程师。BertHubert,他的公司开发开放-源DNS软件,在ISC报告中指出:“闭源Cloudflare软件中的一个错误导致闭源AkamaiAccesspr提供者坠毁。”BreakpointHubert最近表达了他对Firefox会使用Cloudflare作为其安全DNS:DNS-over-HTTPS(DoH)协议的默认提供商的担忧:最近,Mozilla已开始为美国的所有Firefox用户启用加密的DoH。如果Cloudflare闭源软件中的一个软件错误导致根服务器彻底消失,互联网的重要部分可能会导致Firefox用户在某个时候失去他们的安全DNS连接。这可能会导致他们完全失去互联网(互联网仍然存在,但大多数用户不知道原因是什么或如何修复它。)互联网工程师经常重复一句名言:“互联网将审查制度解释为破坏,并绕过it”,最初由ElectronicFrontiers发表,最初由基金会(EFF)的联合创始人JohnGilmore创造,该短语具有如此广泛的含义,以至于工程师经常使用它来基本上表示“不用担心,互联网不断崩溃。“互联网每时每刻都在崩溃,但它几乎会立即自我修复。但随着互联网感觉越来越商品化,以逐利为目的的私营公司越来越多地介入互联网基础设施的底层,ISC针对F根服务器事件的报告很可能是对什么是一记警钟。来。Cloudflare的一位发言人驳斥了任何认为其软件的封闭源代码性质是罪魁祸首的说法,称“这是一个非常极端的案例。”案件。从非此即彼的角度来看待这个问题是不公平的(即开源是好的,闭源是坏的)。我们为开源世界贡献了大量软件。他说,Cloudflare确实“对其即将部署的软件进行了极其严格的测试,但我们没有注意到这种特殊情况”;任何损坏都是“非常局部的”。一位客户改进了字符编码处理,但没想到会产生连锁反应。在我们看来,BGP路由故障导致根服务器丢弃了它们的gTLDA和AAAA记录,这可能是因为无法从另一个系统访问它们。获取这些详细信息。请参阅报告的最后两页。此外,这会影响F根服务器和E根服务器处理的所有域,而不仅仅是.net域,尽管.net在ISC眼中是突出的,因为它是Internet中相当大且重要的部分。