在云数据中心环境中,IAAS云网络是数据中心所有业务的通信基础;云网络的稳定保证需要全面,高性能,真实的时间监视功能,这可以涵盖所有转发网络元素,路径和业务。可以涵盖这组功能。它必须是多兆,多维和多级别的。没有可以满足所有监视需求的监视解决方案或工具。在某些实际情况下,我们发现发现缺乏网格/云服务的某些监视指标。某些业务失败无法及时找到。
案例1:客户端升级云平台网络组件的新版本,升级后每个组件的指示器监视不是异常,但是由于升级,端点向前转发了net元素的组件。此净美元将导致该净值交通中断。当前的监视系统不涵盖容量,当使用客户的实际业务时会导致业务失败,并且阻止业务超过1小时。
案例2:项目的物理网络已更改。物理网络变化引入了路由拒绝问题。监视物理网络没有问题,但是实际影响的业务流量导致业务失败长达2个小时。
案例3:某个项目现场的突然交通导致门户到达瓶颈的力量,这影响了其他租户20ms的延迟。在报告其他租户的业务障碍之前,目前无法找到网络监视。
上面的情况具有共同的功能:单个网格和开关的指标是正常的,但是这些介子和交换机的网络服务存在问题。,整个网络服务监视系统是通过点 - > line->表面的逻辑构建的。
“点”:包括物理网络元素和软件网络美元,它主要监视CPU,内存,接收和接收数据包,数据包丢失,重新定义,规格和资源的单个网格。“点”监视当前的网格是正常的,并且是否具有满足期望的业务能力。
“线”:包括监视物理链接,虚拟链接和租户的业务流程。
1)物理链路监视:从一个计算节点到另一个计算节点的物理转发路径的KPI是正常的,还是从一个物理开关到另一个物理开关的路径KPI是否与期望一致。
2)虚拟链接监视:检测网络服务的服务通道是否正常,是云服务的维度。云网络下的网络服务链接是完成物理网络元素和软件网络元素的组合的总体链接。
3)确保业务流量监控:将物理链接和虚拟链接视为道路,然后将租户的业务流视为在这条道路上运行的汽车。对物理链路和虚拟链路的监视可以确保大多数汽车在没有大的情况下正常运行 -规模障碍,但这并不意味着汽车的操作必须是正常的。保险业务流量监控是基于物理和物理监测和虚拟物理监控的业务实例监控。
“面条”:这是统一的整理和从云服务维度的网络监视显示。标准网络服务组件包括管理立面组件,数据表面组件和租户实例。示出华为云堆栈为例,他们支持大量的云服务,并且有10个以上的网络服务。每个网络服务都有不同的组件。为了帮助操作和维护管理员根据云服务的角度管理这些服务,以云服务的角度进行。资源,拓扑,警报,性能,规格,日志,配置,测试等是统一和分类,以监视整个云服务的运行和维护能力。
表1网络监控比较
大多数云网络都是软件部署。这还不足以监视物理网络的质量。监视末尾的虚拟网络质量的质量更重要,例如VPC服务网络质量(从ECS到ECS),VPC-PER服务网络质量(ECS-VROUTER-ECS),ELB服务网络质量(客户端)-lvs-member)等。虚拟网络链接是云网络的基本转发路径。云网络下的虚拟网络监视对于网络转发非常重要。
华为Cloud Stack面临政府 - 企业市场。为了监视虚拟链接的质量,它提供了一个智能的主动链接监视系统。客户不需要了解复杂的云网络/内部原理。道路监控系统可以自动计算需要根据项目业务方案和客户组网络进行监视的虚拟网络对象,积极地计划监视路径,并自动报告到网络监视索引和警报网络故障。
通过主动链接监视,您可以在以前的情况下找到各种故障。未能找到时间的故障时间从未确定,而故障定位时间从小时级变为分钟水平。
网络监视有许多指标,但是网络质量的最具代表性是包装率和延迟的两个指标。包装率和延迟是网络转发功能和业务质量经验的最直接指标。包装丢失将导致报纸重新分布,这将导致网络振动。对业务的影响将显示为不稳定的业务和Shake.Delay High将导致网络传输缓慢,从而导致对页面结巴和应用程序反应的反应停滞。
数据包损耗率和延迟的检测需要通过主动或被动方式动态测量。无法通过直接查询或收集交换机或服务器的某个指标来获得。有许多相关的网络测量技术。我不在这里重复。
为了获得设备等级,织物级别,整个DC和Cross -DC延迟和数据包损耗率指标,每个制造商都设计了自己的工具系统,例如Microsoft的Pingmesh,Facebook的Netnorad,Baidu的Netradar,Ali's Vtrace等。它是一种系统解决方案,可监视整个数据中心网络的质量。最重要的输出指标是包装率和延迟。
黑匣子检测方法是最常用的,也是计算延迟和包装速率的最简单方法。
传统的黑匣子拨号测试通常仅注意最终表盘测试的结果。如图1所示,通过发送ICMP请求和TCP SYN,请按照ICMP重播和TCPACK数据包。DELAY,从而计算整个检测路径的包装率和延迟。如果中间的开关或净元素是错误的,并且网络元素本身已经分开,外部服务的质量不会中断。在这种情况下,无法通过普通黑匣子检测来检测它。
基于染色数据包的拨号测试通常用于设置故障以在问题后回收问题时设置问题。如图2所示,在每个网格中,包括物理网络元素和软件网元素,都可以准确地定位接收到的消息的数量,并发送每个点的延迟信息。这是一种高精确的黑匣子检测方法。
基于染色和测试方法,我们积极进行链接监视以执行主动性配置探针,并积极安排策略以实现所有网格节点的目的。我们可以通过所有网络元素的服务可用性来监视网络服务,同时获得全量的网状Metades.delay和数据包丢失索引。
主动链路监视使用染色数据包的拨号测量方法作为测量方法,它可以比传统的黑匣子监视获得更精致的监视效果。不仅是监视云服务的质量,而且还具有所有网眼美元的重新质量,这更大。租户的业务流量质量。
图1传统黑匣子拨号测试
图2基于染色包的拨号和测试
活动链接监视整体系统体系结构如图3所示,该图3主要包括服务器和代理。该服务器用于生成策略列表,并基于云服务维度和监视方案创建拨号测试任务。
图3主动链接监视系统体系结构
监视场景:包括日常监控方案和升级监视场景。每日监测是连续监测的过程。它主要集中于宽的监测表面,连续迭代和优化。升级监视,重点关注某个网络服务的监视结果。在网络服务之前和之后,必要的速度和比较是必要的。
网络拓扑:数据中心的网络拓扑,包括所有开关和所有计算节点,软件网络转移连接信息。
战略列表:包括要检测到的所有链接的集合,策略对象是五美元组信息,包括源探针IP,目的探针IP,协议,源端口和目标端口。
拨号控制器:根据策略列表发送拨号任务。
分析仪:收集拨号和测试的结果,并根据拨号检验结果优化策略的策略。优化策略后,它可以涵盖更全面的链接。
拨打代理:将染料数据包注入探针中,并收集OVS的镜像消息。
ERSPAN:物理开关用于检测和分析通过ERSPAN分析仪的虚拟网络和物理网络的统一路径。
根据用户输入的监视方案和云服务列表,服务器将生成默认策略列表,但是每个客户当前网络的情况都不同。4。尚未检测到净美元1_3和净值2_3,无法实现链接盖的效果。
基于染色数据包的拨号方法,我们提出了一个战略优化计划。分析仪将在获得测试结果后对其进行分析。连续迭代策略的五美元群体信息信息可以制定一项策略,以涵盖所有策略,以涵盖所有策略,以涵盖所有策略,这些策略可以涵盖所有可以涵盖所有可以涵盖所有策略的策略的策略。在图5中。图4到图5的策略结果是策略优化的过程。
策略优化的另一个结果,也就是说,在尝试所有可能性之后,不可能覆盖净美元,例如图6中的净美元1_3。这种情况不会影响此网络服务的整体可用性。这只是性能或服务水平下降。主动链接监视还可以找到网络服务的子健康问题。
因此,主动链接监视的策略优化机制不仅包括云服务的可用性,还包括网格的可用性。监视粒径和准确性比传统的黑匣子监控要高得多。
图4初始策略
图5优化策略1
图6优化策略2
图7失败场景
在网络元素的失败场景中,某个网络元素失败。由于所有节点和所有租户都共同使用了网元素,因此将将大量的活动链接监视和测试任务定位在此仪表上。在报告中,服务器将生成大量警报。这些警报的可追溯性重复,并且警报处理效率较低。
警报收敛的过程将进行分析并分析所有故障点信息,并在报告之前收集到统一的故障点,以避免大量重复的警报传递。故障范围。
为了显示测量数据和异常检测结果,主动链路监视设计可以可视化指标,包括两个部分,虚拟链接的延迟,包装率的延迟和网格的延迟以及包装率指标。
虚拟链接包含多个路径,例如VPC的服务,包括计算节点的虚拟开关到其他计算节点的虚拟机开关的路径。8表示计算节点的探针。两个出口之间的界线表示两个探针之间的路径。此路径包括两侧的OV和中间的中间物理开关。每个网络卡和每个物理开关都涵盖了绿色的线,表明指示器是正常的。如果索引异常,则图8中的连接将以红色显示。
单击其中一条路径,您可以检查该路径的数据包损耗率和延迟指标。您可以查看最后30分钟,将近一小时,近一天和最长一个月的指标。
图8 VPC服务链接质量显示
图9路径指示器显示
图10和11显示了网格元素的数据包损耗率和延迟指标。如果有多种类型的网格元,则将分别显示每个延迟和包装速率指示器。
图10净美元数据包损失率
图11净美元延迟
基于基于染色数据包的探索计划的主动链接监视可改善传统的黑匣子监视。它只能监视网络服务SLA,并且不能监视净大都市服务SLA的SLA的缺点。COVERCOPT A COVER COPT ANE CORT ANE CONTING和每条路径,最有可能检测到客户实际业务流的每个路径,找到网络的质量尽快保护客户的业务质量。
作者:华为云堆栈的首席网络运营和维护建筑师Qin Yonggang。