Facebook位于爱荷华州阿尔图纳的数据中心鸟瞰图Facebook的数据中心每天都会收到数十亿的用户请求;公司不断增加成员,推出新功能,请求的数量也在不断增加。这一切对Facebook来说基本上是好事,但对Facebook的网络人员来说却是一个挑战。例如,五个月前足够的数据中心拓扑现在不堪重负。因此,除了像爱荷华州阿尔图纳这样的大型数据中心,Facebook工程师还在不断优化数据中心的网络设计。话虽这么说,调整和改变可能不是描述工程师在Altoona数据中心提出并实施的愿景的正确词汇,但更像是他们重新编写了网络设计指南。在Altoona数据中心建立旧的Facebook网络之前,Facebook工程师将数据中心的服务器机架排列成集群,类似于图A中所示的架构。在现实世界中,Facebook不会只有三个机架,而是有数百个。该图还显示了每个机架的架顶式(TOR)交换机,它们充当服务器和上游汇聚交换机之间的中介。图A:架顶式(TOR)-网络连接架构这种架构运行良好,但它给Facebook工程师带来了一些挑战。Facebook的网络工程师AlexeyAndreyev解释说:“首先,集群的规模受限于集群交换机的端口密度。要构建最大的集群,我们需要最大的网络设备,而制造商数量有限该设备可用。可用。此外,设备中需要这么多端口与提供最高带宽基础设施的愿望不一致。更困难的是如何在集群大小、机架之间保持长期最佳带宽,以及集群外的带宽。平衡。”Fabric:新的网络拓扑工程师将每天数十亿的请求视为一种动力,促使他们摆脱复杂、耗费带宽的自上而下的网络层次结构,并用一种??名为Fabric的新设计取而代之。图B中的幻灯片描绘了一个新的服务器机架集群,命名为pod。单个pod包括48个机架和架顶式交换机,架顶式交换机相互连接形成4个fabric交换机。“每个架顶式交换机目前拥有4条40G上行链路,为10G连接的服务器机架提供总计160G的带宽容量。》图B这种设计方法具有以下优点:?易于部署具有48个节点的pod?可扩展性得到简化且不受限制?每个pod都是相同的并使用相同的连接下一步是连接所有光纤交换机——幻灯片中图C描述了这个任务是如何完成的,Andreyev说这个比较简单(很难想象以前是怎样的)图CAndreyev解释说Facebook工程师在添加主干交换机时坚持了48个节点的原则。“为了实现整栋楼的互联互通,我们建立了四个独立的骨干交换机“平面”,每个平面最多可以扩展到48台独立设备。每个pod中的每个fabric交换机都连接到本地平面中的每个spine交换机。安德烈耶夫随后提到的数字大得惊人。“Pod和平面一起形成了一个模块化网络拓扑,能够容纳数十万台以10G速度连接的服务器,可扩展到千万亿位等分试样。”带宽,为我们的数据中心建筑提供非超额订购的机架到机架性能。“从架顶式交换机到网络边缘的网络操作,Fabric网络设计统一使用“第3层”技术,支持IPv4和IPv6,并使用等价多路径(ECMP)路由。”Andreyev补充说:“为防止偶尔出现的网络中的‘elephanttraffic’(大象流量)消耗大量带宽,导致端到端路径性能不佳。我们已经使网络多速——使用40G链路所有交换机之间,同时通过架顶交换机的10G端口,连接到服务器,我们也有服务器端的机制,万一出了问题,我们可以绕过出错的地方。Andreyev写道,新大楼的物理布局如图D所示,与Facebook之前的设计没有太大区别。一个区别是Fabric在数据大厅X和数据大厅Y之间放置了新的主干和边缘交换机,让网络连接对外界(MinimumPointofEntry,简称MPOE)跨越骨干交换机和边缘交换机的时代图D克服挑战Facebook的工程师们似乎已经克服了他们面临的挑战,硬件的限制不再是问题。不是不仅减少了不同部分的数量,而且还减少了复杂性。据安德烈耶夫介绍,技术团队遵循“KISS(力求简单)”的原则。他在文章末尾补充道:“我们的新结构也不例外。尽管这种拓扑结构的规模和复杂性,它是一个高度模块化的系统,有许多重复的部分。它非常容易自动化和部署,并且比小批量定制集群更容易操作。”
