数据中心的故障种类繁多,但故障结果大同小异。即数据中心内的某个设备、链路或服务器出现故障,无法对外提供正常服务。缓解这些问题最简单的方法是冗余设计,通过为设备、链路和服务器提供备份,最大限度地减少故障对用户服务的影响。但是,一味地增加冗余设计是否可以达到减轻故障影响的目的呢?有些人可能将网络可用性等同于冗余。事实上,冗余只是整体可用性架构的一个方面。一味强调冗余可能会降低可用性,降低冗余带来的优势,因为冗余带来好处的同时也会带来一些弊端,具体如下:w增加网络复杂性w增加网络支持负担w增加配置和管理的难度。因此,数据中心的高可用设计是一个综合性的概念。在选择高可靠的设备部件,提高网络冗余度的同时,还需要加强网络架构和协议部署的优化,实现真正的高可用。设计一个高可用的数据中心网络,可以参考OSI的七层模型来保证各个层次的高可用,最终实现数据中心基础网络系统的高可用,如图1所示。图1数据中心高可用系统设计层次模型网络架构高可用设计企业在规划设计数据中心架构时,一般需要遵循模块化和层次化的原则,避免后续规模越来越大时大规模运营整改,造成时间和投资的浪费。模块化设计模块化设计是指在对一定范围内不同功能的功能分析或对同一功能不同性能、不同规格的应用进行功能分析的基础上,划分设计出一系列功能模块。在满足业务应用需求的基础上,网络稳定可靠、易于扩展、结构简单、易于维护。分层设计包括两个方面:网络架构分层和应用系统分层。随着网络和安全设备虚拟化程度的不断提高,应用系统的分层可以完全通过设备配置实现逻辑分层,而不影响网络的物理拓扑结构。对于网络架构的分层设计,选择三层架构还是二层架构是很多企业在建设数据中心网络时面临的难题。从可靠性的角度来看,三层架构和两层架构都可以实现数据中心网络的高可用性。随着近年来云计算的逐渐兴起,两层扁平化的网络架构更适合云计算的网络模型,可以满足大规模服务器虚拟化集群的部署和虚拟机的灵活迁移。两层架构和三层架构之间没有绝对的区别。企业用户可以根据自己的业务特点进行选择。也可以先使用Layer2,然后对某些特定的功能分区使用Layer3组网。设备层高可用设计设备可靠性是系统可靠性最基本的保障,数据中心核心交换区设备的可靠性和稳定性尤为重要。虽然可以通过架构、策略、配置等调整优化,降低核心设备的故障概率和影响范围,但要解决设备自身最根本的软硬件故障,数据中心级网络设备必须选择。.关于数据中心级设备,业界并无标准定义,但从目前主流网络设备供应商提供的数据中心解决方案产品来看,数据中心级交换机应具备以下特点:1)控制面和转发面物理分离控制面和转发面硬件物理分离,引擎切换时不影响转发,可以实现零丢包。同时,控制面和转发面都提供独立的冗余架构,实现控制和转发的两级冗余,保证更高的可靠性。2)关键部件更强的冗余除了引擎和交换网板的冗余外,此类设备的电源一般可以配置多块,实现N+M冗余,保证电源更高的可靠性;此外,风扇的冗余也由原来的风扇级冗余提升为风扇框的冗余,每个独立风扇框内的多个风扇都是冗余的。3)虚拟化能力数据中心的复杂度越来越高,需要管理的设备越来越多。设备虚拟化可以将多个同级别(核心、汇聚、接入)的设备虚拟化为一个,实现设备的横向集成,简化设备的配置和管理。4)突发大流量的缓冲能力基于CLOS架构的数据中心级设备扩展了端口的缓冲能力,采用新一代分布式缓存机制,将原有的出站缓存移至入站方向。在端口缓存容量大的情况下,这种分布式缓存机制可以更好的缓存多对一的拥塞模型,可以更好的吸收数据中心突发的大流量。链路层(L2)高可用设计采用以H3CIRF2为代表的虚拟化技术,在不改变传统网络物理拓扑、保证现有布线方式的情况下,实现网络各层的横向集成。首层两台或多台物理设备组成统一交换架构,减少逻辑设备数量,实现跨设备链路捆绑,消除环路,保证链路高可用性。协议层(L3)高可用设计数据中心网络的协议层高可用设计可以从以下两个方面考虑:1)快速检测和切换为了减少设备故障对数据中心业务的影响,提高网络可用性、设备需求可以第一时间检测到相邻设备的通信故障,从而及时采取措施,保??证业务的持续进行。通常,路由协议中的Hello消息机制需要数秒的时间才能检测到故障,这会在数据中心内Gbps速率的高速数据传输中造成大量的数据丢失。BFD(BidirectionalForwardingDetection,双向转发检测)就是在这种背景下产生的。是一种全网统一的检测机制,用于快速检测和监控网络中链路或IP路由的转发和连通状态,确保邻居间的通信故障能够被快速检测到,并作为备份通道在50ms内建立以恢复通信。BFD检测可以部署在WAN/AreaCity的出口模块,如图9所示。数据中心核心层和外展模块(广域网、城域网)之前运行OSPF动态路由协议,以及在核心层交换机配置BFD和OSPF路由联动。当WAN或MAN路由设备或链路出现故障时,核心交换机能快速感知并通知OSPF进行快速收敛,缩短数据中心外部数据故障的恢复时间。2)不间断转发在部署了动态路由协议的数据中心网络中,如果设备进行主备倒换,会引起与邻居的关系震荡。这种邻居关系的震荡最终会导致路由协议的震荡和重新计算的收敛,从而使主备交换路由器在一段时间内出现路由黑洞或导致邻居绕过数据服务,这将导致服务暂时中断。为了实现不间断转发,设备本身需要支持数据转发和控制分离,支持双主设计;同时需要部分保存协议(控制平面)的状态,并借助相邻设备,实现主备倒换时的控制平面。不重置会话连接,不中断转发的目的。对应的技术是路由协议的GracefulRestart(平滑重启)扩展,简称GR。GR机制的核心是当某个设备的路由协议重启时,可以通知周围的设备在一定时间内保持到该设备的邻居关系和路由稳定。设备的路由协议重启后,外围设备协助其同步路由信息,使其各种路由信息能够在最短的时间内恢复到重启前的状态。在整个协议重启过程中,网络路由转发保持高度稳定,报文转发路径保持不变。整个系统可以不间断地转发IP包。应用层(L4~L7)的高可用设计,在数据中心网络层面实现了L4~L7层的高可用,可以采用负载均衡方案。一方面,L4-L7层负载均衡可以提高服务器的响应能力和链路的带宽利用率;另一方面可以保证在单台服务器或单条链路发生故障后,业务数据无缝分布到其他服务器和链路上,以实现数据中心的高可用。1)链路负载均衡(LLB)链路负载均衡往往部署在数据中心的广域接入区和互联网接入区。通过静态表项匹配和动态链路检测,实时监控多条链路的状态。检测监控,确保流量以最合理、最快速的方式分配到不同的链路上,实现高效的业务传输。对于数据中心的WAN接入区域,由于WAN的出口流量仍然是企业的内网数据流,在L4层,一般可以通过IP的五元组特征来区分不同的业务流报文,通过LayerCAR直接分发到路由器上,跨端口流量转发实现负载分担、关键业务带宽保障、WAN链路捆绑。不需要特殊的LB设备。2)服务器负载均衡(SLB)目前,大部分应用系统采用的是BS架构。企业数据中心的WEB服务器需要接受来自内网和外网众多用户的连接请求。因此,单个服务器的性能和可靠性可能不尽相同。如果不能满足,为了实现更多的用户访问和服务器冗余,可以在WEB服务器上部署负载均衡。服务器负载均衡部署可以通过以下两种方式实现:服务器集群软件服务器集群软件(如MSCS)一般要求服务器集群在同一VLAN内,其他具体要求这里不再赘述。服务器负载平衡(SLB)设备SLB设备提供VSIP(虚拟服务IP)。用户接入VSIP请求服务后,LB设备根据调度算法将请求分发到各个真实服务中。总结数据集中意味着风险、响应、复杂性和投资的集中……高可用设计和部署是企业数据中心建设中永恒的话题。“高台莫建浮沙”,网络作为数据中心的基础IT承载平台,是IT系统高可用的基本保障。要实现数据中心网络的高可用,技术并不能解决所有问题,还需要完善的运维流程、规章制度和管理制度的配合。结合企业业务的发展趋势,不断总结和积累是一个长期、渐进的过程。
