当前位置: 首页 > 科技观察

NVMeoverFabric网络技术

时间:2023-03-15 13:41:49 科技观察

传统协议无法满足全闪存数据中心的要求。NVMe存储协议的出现,大大提升了存储系统内部的存储吞吐性能,降低了传输时延。NoF(NVMeoverFabric)存储网络应运而生。在众多Fabric技术中,NVMeoverRoCE(RDMAoverConvergedEthernet)已被大多数存储厂商所接受,成为业界NoF的主流。与标准的NoF方案相比,华为推出的NoF+存储网络方案在性能、可靠性、易用性等方面实现了颠覆性的提升,是全闪存时代的最佳选择。随着存储介质从HDD向SSD发展,存储的高性能吞吐量与SCSI协议传输的低性能吞吐量之间的矛盾日趋严重,NVMe存储协议应运而生。NVMe标准化SSD访问接口,简化协议复杂度,充分利用PCIe(PeripheralComponentInterconnectExpress)通道的低延迟和并行性,利用多核处理器,降低协议交互延迟,增加协议并发能力,并简化操作系统协议栈,显着提升SSD的读写性能。全场景闪存驱动数据中心网络变革,NVMe最大化SSD介质容量。更快的存储需要更快的网络。NoF存储网络应运而生。通过专网使用IP网络的创新创新,实现更高的带宽和更低的时延。同时,它还具有易于管理IP的优势,是更好地实现端到端NVMe存储网络的最佳解决方案。NoF将NVMe协议应用于服务器主机前端,作为存储阵列与前端主机连接的通道,可以端到端替代SAN网络中的SCSI协议,构建全以太网存储SAN网络。NVMeoverFabric中的“Fabric”就是NVMe的承载网络。该网络可以是RoCE、FC或TCP。具体如下:NVMeoverFC协议标准为FC-NVMe,FC-NVMe和FC-SCSI也是基于FCP,IO交互基于Exchange。FC-NVMe基于传统的FC网络。通过升级主机驱动和交换机支持,FC-SCSI和FC-NVMe可以同时运行在同一个FC网络上。FC-NVMe可以最大限度地继承传统FC网络,重用网络基础设施,利用基于FC物理网络的新NVMe协议。NVMeoverTCP基于现有的IP网络,使用TCP协议传输NVMe,在不改变网络基础设施的情况下实现端到端的NVMe。NVMeoverRoCE是NVMeoverRDMA的一种。RDMA是一种承载NoF的原生网络协议。除了RoCE,RDMA协议还包括IB(InfiniBand)和iWARP(InternetWideAreaRDMAProtocol)。其中,基于以太网的RoCE已经成为RDMA的主流网络承载方式。NVMeoverRDMA协议相对简单。它直接将NVMeIO队列映射到RDMAQP(QueuePair)连接上,通过RDMASEND、RDMAWRITE、RDMAREAD三种语义实现IO交互。NVMeoverRoCE基于融合以太网的RDMA技术承载NVMe协议。三种方案相比,基于以太网的RoCE比FC具有更高的性能(更高的带宽和更低的延迟),并且具有TCP(全以太网和全IP)的优势,因此NVMeoverRoCE是NoF的最优承载网络方案了也成为业界NoF的主流技术。基于以太网的RoCE在存储性能和带宽方面比FC有显着优势。但是,要取代FC,连接全闪存存储,标准的NVMeoverRoCE还需要在三个方面进行改进:1.网络性能:零丢包网络零丢包是存储网络的基本要求,而传统以太网网络很容易因拥塞而丢失数据包。2、可靠性:二级主备切换存储为了可靠性,会建设多个网络平面,切换时间需要<1s。3、易用性:即插即用的FC存储网络,场景单一,配置简单。目前的以太网络对于存储场景的适应性还有待完善。基于目前业界主流的标准NoF解决方案,华为依托在网络和存储领域的深厚积累,进一步提升网络性能、可靠性和易用性。基于智能无损网络,针对中心化存储场景提出NoF+。该解决方案将进一步推动数据中心存储网络走向更广阔的发展空间。网络性能提升:NoF+方案改变了传统以太网静态水线方式,专门优化了网络的预测能力。通过样本计算和具体场景,通过算法进行精确控制,从而预测业务对网络的需求,提前做好。输出优化以实现高吞吐带宽并进一步提高性能。可靠性增强:保证业务系统的可靠性是存储的基础。例如,存储的秒级切换功能是可靠性的关键保障之一。标准以太网缺乏主动发现和通知故障的能力。NoF+实现了对主动通知的事后被动响应。提前识别拥塞和故障。当节点出现故障时,将以亚秒级响应速度切换业务,在高性能运行的前提下也能保持系统的稳定性和可靠性。易用性增强:华为强大的存储和网络产品相结合,打造“即插即用”的解决方案,实现一键式扩容和自动化管理,增强未来建设中的易用性。在数据中心的常规组网中,存储网络只是其中的一部分,而集中式存储是一个与业务网络物理隔离的独立网络。业务网络:指业务服务器对外提供的服务通信网络,该网络与外部网络互联。计算网络:指运行OLTP/OLAP(OnlineTransactionProcessing/OnlineAnalyticalProcessing)数据库的后台服务计算节点组成的物理网络。通过不同的网卡连接业务网络和存储网络,实现业务网络和存储网络之间的物理网络。隔离,避免相互影响。存储网络:指计算服务器访问存储数据所使用的通信网络,一般为独立的物理网络。为保证数据的高可靠性,存储网络支持DC级容灾和同城双活存储网络,确保当业务系统出现故障甚至单个数据中心出现故障时,业务自动无感知切换,实现RPO(RecoveryPointObjective)=0,RTO(RecoveryTimeObjective)≈0(与应用系统和部署方式有关)。为了容灾,数据中心需要实现多数据中心互通。同城的两个数据中心互为备份,都在运行。当一个数据中心发生设备故障,甚至整个数据中心发生故障时,业务自动切换到另一个数据中心,解决了传统容灾中心无法承载业务,业务无法自动切换的问题。在为用户提供高水平的数据可靠性和业务连续性的同时,提高了存储系统的资源利用率。异地数据异步备份。中心化存储下,为了支持NVMEoverROCE同城读写,需要实现同城无损网络,即需要跨DC的无损网络。每个DC部署2个DCILeaf,支持智能远距离无损。子设备或裸纤直连实现双平面,实现端到端的ROCE无损网络。该场景下,常见的流量类型如下:应用发起对存储节点数据的读操作。此时计算节点访问同一个数据中心内的存储节点,存储节点返回相应的数据,如图中蓝线所示。展示。当应用程序还需要向存储写入数据时,除了对本地数据中心的存储节点进行写操作外,在存储系统之间,还会向其他数据中心的存储发起写操作,作为数据的复制和备份,如图图中用黑线表示。上层应用在写DC存储时,会先检测DC中的存储节点是否可用。如果没有,应用程序会将数据写入DC2中的存储节点,如图中红线所示。然后DC2中的存储节点尝试将数据复制写入DC1中的存储节点,如图中紫色线所示。RoCEv2协议将RDMA迁移到ETH/IP网络,使ETH/IP网络能够支持HPC、AI、分布式存储和集中式存储。NoF+存储网络解决方案采用RoCEv2技术,改变传统数据中心前端业务网络采用以太网、计算网络采用IB网络、存储网络采用FC网络的异构模式,使智能无损网络实现三网合一成为可能。网络整合。以太网部署。