当前位置: 首页 > 科技观察

云时代如何简化数据中心网络运维?

时间:2023-03-13 03:43:39 科技观察

SDN在经历了百家争鸣之后,如今已经成为企业CTO的坚定选择。SDN时代的网络有两个方面:一方面让客户更容易使用,另一方面让运维变得更复杂。目前整个行业都在关注前者而忽略了后者。随着SDN的部署如火如荼,一丝隐忧也若隐若现。2015年12月,管理行业研究机构EMA(EnterpriseManagementAssociates)对100多家企业进行了调查,结果显示,约70%的客户对现有管理运营体系是否适合SDN场景表示担忧。Gartner在2015年7月发布的通信网络技术成熟度曲线(TheHypeCycle)也显示,SDN相关运维技术正处于TroughofDisillusionment,将在2~5年内大规模落地。商业部署。早在全面拥抱SDN的初期,华为就将SDN运维作为研究和实践的重点课题。下面从WHY、WHAT、HOW三个纬度展示华为对SDN运维的思考。Why:SDN运维新变化与传统网络相比,SDN时代的网络具有以下特点:动态网络:动态是指根据应用需求创建和删除逻辑网络。例如,某企业用户反映运维中50%的工作需要投入到防火墙规则上。主要原因是随着应用的变化,防火墙规则没有相应的变化,造成网络沉淀和碎片化。实时响应:传统网络的设计主要是人性化的界面,基于分钟级慢速原则,比如已经使用了几十年的SNMP机制。这种缓慢的机制成为SDN快节奏中的一个吐槽点。某企业客户抱怨其轻载网络出现瞬时突发丢包。怀疑有毫秒级的微突发流量,但在分钟级SNMP机制下无法观察和优化。Largescale:Largescale有两个意思,一个是管理的设备数量。从物理网元到逻辑网元vSwitch/vRouter,数量增加了50倍;二是处理故障的数量。据LinkedIn数据显示,2010年到2015年,处理失败的次数增加了18倍,但管理人员的数量只增加了几个。要应对SDN网络的上述三大问题,传统的“人工运维”方式过于捉襟见肘,难以为继。WHAT:SDN运维的内涵为了应对SDN“动态、实时、大规模”的挑战,华为提出需要改变整个运维架构,让SDN“高效易用”。新的SDN运维架构需要围绕以下几个方面进行构建:可视化:可视化、一目了然。俗话说,“你无法管理你看不到的东西”。“可见”有两层含义:Observable对象是可见的:物理对象和逻辑对象都可以被监控,包括网元层面的节点和接口,以及网络层面的链路、逻辑路径、应用质量等。实时观察:支持毫秒级现象(如流量微突发)、低频(<10-4)丢包、大象流、老鼠流等的感知。“看得清”是指为了观测的准确性,需要收集和分析大量数据。包括:精准计费:收款比例需要从8K:1到2K:1,甚至1:1全收。故障处理:基于采集的“大数据”和实时分析,及时发现零星丢包和流量黑洞。自动化:自愈自优化传统的网络运维架构是单向系统,而不是负反馈系统。网络运维包括两个方向:管理员在下行方向配置网络,然后通过上行方向获取网络的状态。也就是说,网络的部署和状态是分离的,通过管理员进行有限的通信。这种机制显然不能满足网络故障自修复和网络自优化的需要。自动化运维需要构建“闭环”的运维架构,具体包括:延时修复:发现故障后,首先隔离故障,不影响现有业务。诊断修复:结合收集的“大数据”和经验库,进行自动修复或给出明确的修复方案。网络优化:及时发现网络的“病”,如流量不平衡、流量拥塞风险等,通过闭环系统,网络部署系统自动调整,将故障消灭在萌芽状态。HOW:SDN运维解决方案是基于SDN下运维的新变化。华为对运维生命周期进行了分解,构建了一个“闭环”的运维负反馈体系,称为FabricInsight架构,包括以下四个模块:Monitor:监控为了解决实时、海量的数据监控,需要从以下两个方面改进解决方案:改造采集通道以满足海量数据上报:对于中等规模的数据上报,使用gRPC等高效采集通道替代SNMP等;对于大规模数据上报,直接使用数据面基于UDP的采集通道,消除了管理面CPU的带宽限制。改造采集点满足高频采集:在数据中心交换机上设计专用高频采集组件,满足毫秒级事件采集。检测器:未来要及时检测端到端业务路径的质量,需要通过实时发送检测报告来“扫描”网络。不同于传统机制的“随机扫描”,华为结合网络的拓扑和路由,支持更精准的“定向扫描”,真正做到全网覆盖。基于这种能力,管理员不再是“消防员”,而是运筹帷幄的“诸葛亮”。Metrics:在某些情况下,网络质量正常,但应用体验下降。检测机制无法解决这个问题,所以需要根据真实的业务流进行衡量,判断业务流是否存在丢包和延时问题。如果有丢包,丢包位置在哪里?如果延迟很大,是什么因素造成的??诊断:诊断诊断就像看老中医。通过Monitor、Detector、Metrics“所见所闻、所问”,再结合经验库案例,定位问题根源。诊断组件由一系列工具组成,每个工具针对特定问题。比如环路诊断工具,丢包诊断工具等。华为秉承开放理念,开放基础运维API。客户可以自行打开和定制自己的诊断工具集。