超大规模数据中心的数据链路层自动化测试案例如今,数据创建、存储和处理的指数级增长正在推动全球对超大规模数据中心的需求。这些数据中心的大部分基础设施都是由亚马逊、微软和谷歌等云计算服务提供商(CSP)设计和管理的,它们依靠强大的物理连接来确保部署的存储和计算资源得到充分利用。用户可以使用自动化解决方案对这些关键物理连接的数据链路层进行测试和故障排除。但首先您应该了解并检查链接和链接类型。超大规模数据中心中最常见的三种物理组件是:直连铜缆(DAC)、有源光缆(AOC)和连接到收发器的光缆组件。所有三个连接元素都可以被认为是数据传输的高速公路。这些组件的基本电气和光学连接功能正常运行不仅很重要,而且数据链路层在已建立的网络/制造商规范内运行也很重要。这些连接元素的不同主要在于数据速率和物理链路长度(最大覆盖范围)。直连铜缆(DAC)用于连接距离很近的设备,最常用于连接同一机架内的两个元件。有源光缆(AOC)具有更远的距离,可以连接同一排机架内的两个设备,甚至可以连接到相邻的排。光纤电缆组件包括连接到数据中心入口面板的长距离电缆,可以连接两个相距很远的设备(通常最远可达100公里,具体取决于它们所连接的收发器)。无论数据速率或它们跨越的距离如何,所有这些链路都必须受到监控和测试,以确保物理层和数据链路层都在标准范围内运行。1.直接连接铜缆(DAC)直接连接铜缆(DAC)是电缆本身由铜线制成的替代方案。当信号处理电路集成到DAC的内置连接器中时,直接连接铜缆(DAC)可以是无源或有源的,以提供直接连接。与有源光缆(AOC)一样,直接连接铜缆(DAC)将由小型可插拔(SFP)模块或四路小型可插拔(QSFP)模块端接,具体取决于线路速率。有源光缆(AOC)支持更长的传输距离,并且比直连铜缆(DAC)电缆更轻。然而,有源光缆(AOC)的成本更高,而且光纤比铜缆更容易损坏。有源光缆(AOC)和直连铜缆(DAC)电缆也可用作支线。2、有源光缆(AOC)有源光缆(AOC)用于数据中心的点对点互连应用,通常在同一排机架中。将有源光缆(AOC)与带收发器的电缆组件(也称为SFP和QSFP等可插拔光学器件)进行比较时,有源光缆(AOC)提供了一种简单的安装方式,无需考虑互连损耗,并且在进行连接之前无需清洁和检查光纤端面。但是,有源光缆(AOC)不能用于使用配线架的行尾(EOR)或行中(MOR)配置。对于40GE、100GE和400GE高速链路,这通常意味着在带状电缆上使用多个数据通道。在10GE、25GE或50GE的情况下,每个方向的单通道或光纤就足够了。一个关键属性是有源光缆(AOC)使用与可插拔光学器件相同的笼子,并在每个电缆末端执行光电转换。实际上,这意味着40GE和100GE的QSFP终端(400GE的QSFP-DD)和10GE和25GE的SFP终端。因此,有源光缆(AOC)是有源的,其组成部分除光缆外,还包括收发器、控制芯片、模块等。有源光缆(AOC)电缆长度固定,通常从几米开始延伸到100米或更长。从技术上讲,AOC不必符合多种以太网接口类型中的任何一种,尽管许多AOC在其产品信息中宣传符合特定以太网接口类型。由于直连铜缆(DAC)和有源光缆(AOC)不提供对实际光纤或铜缆的测试访问,因此无法使用传统的媒体测试和认证工具对电缆进行认证或故障排除。相反,必须使用可以接受双SFP/QSFP收发器并生成和分析流量的测试工具。测试DAC和AOC是确保任何网络性能问题不是由DAC/AOC或其安装引起的关键步骤。考虑到电缆在安装失败时没有预先测试,成本会更高。因此,需要对远端进行跟踪定位。直连铜缆(DAC)/有源光缆(AOC)故障原因包括简单的制造缺陷、错误或反极性以及运输过程中贴错标签或损坏。在有源光缆(AOC)的情况下,它们可能会过度弯曲,从而导致高损耗或光纤可能被压碎。在直连铜线(DAC)的情况下,可能会发生电磁干扰(EMI),从而导致过多的位错误。添加更多电缆以在超大规模数据中心进行测试,很容易理解对自动化测试过程的需求。边缘部署和分解:平衡安装时测试的时间/成本效率在光纤网络时代,构建和调试超大规模数据中心意味着承包商还负责性能、可操作性、压力、可靠性的测试和认证。将此与超大规模数据中心的指数增长以及更接近最终用户的需求相结合,结果是更多的边缘部署(网络虚拟化)。这迫使超大规模数据中心提高速度、安全性和效率,同时最大限度地减少网络延迟。同时需要快速启动边缘部署可能会增加在安装之前不测试所有电缆的决定,而是选择等待并在故障排除期间解决任何连接问题。同样,在故障排除过程中,由于需要最大限度地减少停机时间,因此通常会决定切断或断开电缆并铺设新电缆,而不是排除故障或移除现有电缆。从机柜中拉出未经测试的电缆返回给制造商的情况并不少见,但制造商声称电缆没有问题,或者由于大量故障电缆而无法诊断。这不仅成本高昂(电缆从几十到几千美元不等,取决于线路速率),机柜中未使用的电缆会造成拥塞,而且还会导致标签错误或混乱,并且增加了拔掉运行的可能性电缆。由于原有线缆是费率的,不能用于升级,在机柜中留有切口和死线会造成更大的体积和重量,从而影响机柜结构的主要功能。3、误码率测试的价值由于电缆成本等因素的变化,很难准确说明在安装时对每条电缆进行测试和验证的时间和成本优势。但是,从理论上不难推断,如果在安装时没有对足够的线缆进行测试,那么未来的故障排除工作和网络升级将更加耗时和昂贵。测试电缆最简单且最具成本效益的方法是运行测试模式并将结果与??误码率(BER)阈值进行比较。直接连接铜缆(DAC)和有源光缆(AOC)(包括分线)通常在其数据表上标有误码率(BER)等级,尤其是当它们打算与实施RS-FEC的设备一起使用时使用时的算法。误码率(BER)等级取决于电缆类型、线路速率和以太网接口类型。对于用于RS-FEC编码流量的电缆,通常为400GE、100GE、50GE和25GE,甚至可能同时存在前FEC级别(纠错前)和后FEC级别(纠错后)。在这种情况下,建议使用接近电缆误码率(BER)评级的预FECBER阈值执行电缆测试,并确保测得的误码率(BER)小于成功测试的阈值。对于不使用RS-FEC的40GE和10GE电缆,预期的误码率(BER)阈值需要小得多,因为这些线路上没有纠错。在这种情况下,如果直连铜缆(DAC)或有源光缆(AOC)没有误码率(BER)评级,则建议的阈值误码率(BER)为10^-12。在10Gbps或更高的线路速率下,对每根电缆进行一分钟的测试足以获得有意义的误码率(BER)结果。电缆测试的最佳实践程序将生成一份测试报告,其中包括电缆标识符(如序列号)等信息,这些信息可以从直连铜缆(DAC)或有源光缆(AOC)电缆中读取。因此,根据目标误码率(BER)阈值测试直连铜缆(DAC)或有源光缆(AOC)是确保更多电缆在连接时正常运行的一种有意义的方法。原文链接:https://www.datacenterdynamics.com/en/opinions/a-case-for-automated-testing-of-the-data-link-layer/
