浅谈数据中心网络运维异常泛洪流量的分析与优化在为业务带来快速开通、高冗余、高弹性的同时,也引入了多种新封装格式的数据包和大量的BUM-就像将流量淹没到已部署的网络环境中一样。无论上层应用架构如何变化,底层网络基础架构都无法脱离经典网络的二三层转发模式。在经典网络的二层和三层转发模式中,网络环境中会存在广播和组播。和BUM流量,例如未知的单播泛洪。一些必要的BUM流量,如ARP解析、交换机MAC地址学习和防火墙、冗余网关热备份协议组播心跳是网络转发所必需的,超出规划可控范围的异常BUM流量会影响整个网络的转发性能,严重影响.今天我们就结合日常网络运维工作实践,谈谈网络基础运维中异常网络泛洪流量的发现、分析和优化。BUM流量(指三种流量的缩写,包括Broadcast广播流量;UnknownUnicast未知单播流量;Multicast组播流量)是一把双刃剑,数据中心级网络的正常运行和冗余部署各系统的架构建设离不开BUM流量的支持。由于数据中心接入环境的复杂性和服务器接入带宽的差异,过多的BUM流量可能导致小带宽接入服务器的网络带宽资源被充分占用,导致传输性能下降。因此,我们需要详细了解和区分哪些BUM流量是必要的,哪些BUM流量是异常的。只有能够区分正常和异常的BUM流量,才能及时控制和排除异常BUM流量,保证数据中心网络的正常运行性能。我们来看看哪些流量是正常的BUM流量。1.Broadcast广播流量① 在数据中心网络中,ARP是Broadcast广播流量的一个正常分类。在网络中,同一广播域内的服务器和网关之间的通信依赖于MAC地址,而MAC地址一般是唯一的,不利于服务器的灵活利用。因此,通常在赋予服务器功能角色的同时,赋予其IP地址。ARP信息主要负责网络中的ARP解析,即完成服务器与网关、服务器与服务器之间IP地址与MAC地址对应关系的解析。这样,如果知道目标服务器的IP地址,就可以通过ARP获取到。目标服务器对应的MAC地址,进而完成通信。因此ARP流量在网络中是不可或缺的,也是保证网络基本通信的重要流量信息。② 在数据中心,在启用了DHCP服务的网络环境中,DHCP请求报文也属于Broadcast流量的正常范畴。启用DHCP的终端将通过DHCP请求报文获取其访问数据中心所需的IP地址,然后通过该IP地址进行互联通信;2.UnknownUnicastUnknownunicasttraffic一直存在。这是一种纯粹受网络运行机制影响的泛洪流量。在学习网络交换机MAC地址的过程中,一旦收到目标MAC地址没有缓存在交换机本地CAM表中的数据包,就会复制该数据包,然后从网络中的接口转发出去。本地交换机的转发状态(收到数据包的接口不转发),从而完成未知目标MAC地址***通信。这里我们可以根据未知单播报文的特点总结出一条规则:当所有未知单播泛洪流量产生时,发起泛洪的交换机的CAM表中一定不能有泛洪流量目的MAC地址的缓存。3.Multicast组播流量在目前的数据中心环境下,组播流量的应用场景并不多,大部分用于网络、系统、数据库中的冗余架构心跳、多活架构信息同步、网络路由协议等等状态监控等场景。比较常见的应用包括冗余网关热备份协议心跳信息、防火墙心跳信息、F5多活心跳信息、OSPF等路由协议的心跳信息。这些心跳报文的目标组播地址是相对固定的。例如HSRP的目标组播地址为224.0.0.2,OSPF心跳报文的目标组播地址为224.0.0.5。BUM流量的类型和特征。作为网络运维工程师,下一步就是对网络环境中的BUM流量采取实时监控措施,避免突发的BUM流量对其他网络设备的运行造成影响。对系统进行实时监控,及时发现并处理网络中异常的BUM流量。实时监控网络同一广播域内异常的BUM流量,及时发现网络中运行的异常BUM流量。根据BUM流量的转发特点,建立合理有效的监控方式,有效发现异常BUM流量并及时处理,避免大量BUM异常流量对整体的影响网络的传输效率。1.建立异常泛洪流量监控手段为了及时发现网络中可能存在的异常BUM流量,网络团队为总行同城双活数据中心建立并部署了网络异常流量监控系统,能够支持全网安全区域BUM流量的运行监控能力。设计思路是利用BUM流量在整个广播域泛洪的特点,在每个安全域选择核心交换机的trunk边缘接口,将区域内所有VLAN的所有BUM流量通过这个接口(不合格的单位可以直接引入探针),流量采集网络中的探针服务器会进行基线动态学习调整,并考虑一些特殊的跨数据中心防火墙的HA心跳同步数据,针对获取监控阈值。一般30个网段左右的区域正常泛洪流量在500Kbps以内。如果区域内有防火墙之类的HA心跳vlan,可能在几兆以内。2.网络精细化运维,持续优化通过异常网络流量监控系统,第一时间掌握网络异常情况,实时发现网络异常BUM流量,并据此做出决策异常流量产生的基本原理。初步判断出站流量来源,判断依据和优化方法如下;① 实时发现超过BUM流量基线的异常BUM流量,可以初步判断异常BUM流量是否会对当前安全域的业务产生实时影响;② 通过流量采集网络可以获取异常BUM报文的详细信息,包括报文中的源MAC地址和目的MAC地址、源IP地址和目的IP地址,可以作为进一步分析源头的依据BUM报文异常③ 广播、组播流量异常:根据抓到的数据包中的详细信息追溯异常广播流量的来源,最终确认广播流量异常的原因;④ 未知单播异常流量类型:网络中异常的未知单播流量,通常是网络原因引起的。上面提到,未知单播流量的原因是本地交换机没有数据包的目的MAC地址信息。那么,数据包的目标MAC地址没有被缓存的原因还需要进一步分析确认。结合多年网络运维实践,未知单播泛洪一般有以下六大原因:交换机MAC地址老化时间早于交换机ARP老化时间;交换机MAC地址被生成树TCBPDU异常删除;ARP绑定问题导致数据包的目的Mac交换机无法正常学习,尤其是服务器网卡mac地址发生变化时,更容易出现大流量泛洪;区域内服务器不主动发送数据包,一般是单向接收数据包,比如监听UDP单向数据设备,比如syslog日志服务器;服务器或交换机异常封装不存在的mac地址,如个别服务器在极端情况下可能会封装所有0mac地址,造成泛洪;非对称路由导致MAC地址学习异常,产生异常的未知单播泛洪流量;对于中心系列交换机,由于该系列交换机ARP老化时间为25分钟,ARP单播更新时间为18分钟,MAC地址老化时间为5分钟,因此可能会收到大量未知单播报文由于MAC地址的快速老化而产生的。广播泛滥。为了避免这种情况,我们将交换机的MAC地址老化时间调整为30分钟(比ARP老化时间长25分钟),这样MAC地址更新就可以在进行ARP单播更新的同时同步完成,从而大大减少了未知消息的数量。广播泛洪流量,提高网络转发性能。3、完善告警机制未来我们将逐步完善网络流量异常监控系统的告警机制,通过灵活的告警方式和监控点设置,实现更快速、更准确的告警通知。未知BUM消息监控接口的流量和计数器全部纳入统一监控,结合动态基线,实时分析异常告警,并发送给网管,提高排查效率。随着业务的发展,数据中心网络规模不断扩大,给网络运维管理带来挑战。总结日常工作中遇到的疑难杂症,认真分析、理清网络优化和故障处理思路,进一步做好网络运维工作。以上是我们对网络异常BUM流量的初步分析总结,敬请批评指正。
