当前位置: 首页 > 科技观察

如何降低数据中心高速光模块的故障率

时间:2023-03-20 15:39:07 科技观察

5G、大数据、人工智能等技术对数据处理和网络带宽提出了更高的要求。迫切需要增加网络带宽,尤其是互联网的数据中心。提升网络带宽最直接的方式就是提升单个端口的网络带宽,从40G到100G,从100G到200G,甚至更高,从而提升整个数据中心的带宽。有专家预测,大多数400GbE部署将在2019年开始,400GbE交换机将用作超大规模数据中心的主干或核心交换机,以及私有云和公有云数据中心的主干或骨干交换机。三年后,现在是向400G过渡的时候了,网络带宽提升的速度越来越快。一方面,数据中心对高速模块的需求旺盛,另一方面,模块的故障率居高不下。与1G、10G、40G、100G甚至200G相比,直观上故障率要高很多。当然,这些高速模块的工艺复杂度远高于低速模块。比如一个40G光模块,本质上就是绑定了4个10G通道同时工作。相当于4个10G信道在工作,整个40G就不能用了,故障率当然比10G高,而且光模块需要实现四光路的协同工作,出错的概率自然就高了。尤其是100G,有的是通过10个10G通道绑定的,有的是采用新的光技术,会增加出错的可能性。且不说更高的速度,技术成熟度也不高。比如400G,目前还是实验室技术,2019年推向市场,故障率难免会出现一个小高潮。会有很多。随着技术的不断完善,相信它会像低俗模块一样,逐渐变得稳定。想象一下20年前从GBIC获得一个1G光模块。感觉和现在用200G的光模块差不多。新产品的故障率在短期内上升是不可避免的。好在光模块故障对业务影响不大。数据中心内的链路都有冗余备份。如果一个链路的光模块出现问题,业务可以转到其他链路。如果CRC错误包也可以通过网管立即发现并尽快更换,所以光模块的故障很少对业务造成重大影响。在极少数情况下,设备端口的故障可能是由光模块引起的,从而导致整个设备的故障。这种情况多半是设备造成的。很少是由于执行不合理造成的。大多数光模块和设备都是松散耦合的。它们虽然连在一起,但没有耦合关系。所以,虽然有很多高速光模块在使用过程中坏掉了,但是对业务的影响并没有那么大。通常,人们不会注意它们。如果他们发现故障,将立即更换。高速光模块的维护时间也长,故障基本没有。更换损失不大。光模块的故障往往表现为端口不能UP,不能识别光模块,端口CRC有错包等现象。从软件技术上判断故障定位。其中一些是适应问题。双方都没有问题,但是没有互相调试和适配,导致无法协同工作。这样的情况很多,所以很多网络设备都会提供适配。光模块清单要求客户使用自己适配的光模块,以保证稳定的可用性。如果遇到故障,最好的方法还是轮换测试,换链路光纤,换模块,换端口,通过这一系列测试,确认是光模块问题还是链路或设备端口问题问题。这种故障现象是比较确定的,那种不固定的故障现象很难处理。比如端口有CRC错误包,拔掉光模块换上新的,故障现象消失,再更换原来的光模块,故障就不会再出现,所以很难判断是不是光模块的问题。这种情况在实际使用中经常遇到,不好判断。如何降低光模块的故障率?第一,抓源头,更高带宽的光模块不要急于上市,而是要做好实验,而高速模块需要配合相应的设备才能实现,这些技术也需要不断完善才能成熟,新的高速模块要顺利推向市场,不要一味追求高速。现在网络设备支持多端口捆绑。如果400G不够用,4个100G捆绑也能满足需求;二、关注高速光模块网络设备厂商和数据中心客户在引入高速光模块时要慎重,加大对高速光模块的严格检测力度,坚决过滤质量不合格产品。现在市场上高速光模块的市场竞争比较激烈,大家都希望在新型高速模块中抢占先机,但是质量和价格参差不齐,这就需要网络设备商和数据中心客户加大他们的评估工作。速率高的模块增加了验证的复杂度;第三,光模块其实是一个集成度特别高的器件,裸露的光纤通道和内部器件都比较脆弱。清洁手套,避免掉落灰尘,也会降低使用中的故障率。不用的光模块应装上光纤帽并装入袋中。第四,尽量少出现极端情况。比如100G的光模块长期接近限速使用,200米的光模块必须在200米的距离使用。使用这些极限边界值对光模块造成的损耗较大,就像人一样。人在24-26度的空调房内工作,工作效率高。在高温环境外35度时,注意力无法长时间集中,工作效率极低。40度以上,人都快中暑了怎么工作?为光模块提供一个舒适的环境,可以有效延长光模块的使用寿命。随着海量数据的增长,对数据中心带宽的需求越来越高,引入更高速的光模块成为必由之路,其质量必须得到很好的控制。如果新的高速模块在市场上频繁碰壁,必然会被淘汰。当然,任何新技术都有一个成熟的过程,高速光模块也不例外。解决各种问题,提高组件质量,降低故障概率,需要不断的技术创新。高速光模块是模块厂商的利润引擎,过去一直是模块厂商的必争之地。严格的质量控制必须严格控制。