当前位置: 首页 > 科技观察

核心网运维的困境

时间:2023-03-21 01:06:00 科技观察

本文转载自微信公众号《网络卓越雇佣兵》,作者liyu。转载本文请联系忘忧佣兵公众号。核心网是网络的大脑,是5G使能行业数字化转型的引擎。但是,现有运维模式经过多年实践,核心网运维仍存在几大难点。人员能力提升缓慢。维护人员既要分析又要操作。最后可能分析的不好,无法实施操作。维修人员是解决设备问题的。现有的运维机制是:设备产生告警,告警监控发送工单,维护人员处理工单,监控验证回执质量,完成闭环。多么看似完美的管理流程。事实上,维护人员看到告警未必能准确定位问题根源。这就对维修人员的技能水平提出了更高的要求。只有高超的技术水平和多年的维修经验,才能从虚警和真警信息中分析出关键问题。这只是第一步。其次,要有处理问题的能力。如何处理这个问题?可能需要更换单板的能力,可能需要协同能力,比如联系承载网和周边网元进行协同处理。事实上,人的真实技能与实际工作技能需求总是存在差距的。这就导致了一种大家都不想看到但又实际存在的情况:有时候我们没有做好故障分析和故障处理。维护人员故障处理能力的提升需要大量的案例来支撑,但实际上核心网并没有大量的故障案例来支撑大量的维护人员能力提升。这就导致:维护人员之间的故障处理能力并不总是均衡的。这就像医生看医生一样。医生的经验来源于大量的临床经验。我们之所以相信老中医、老医生,是因为这些医生处理过大量的病例(=失败病例),在处理这些病例的同时,医生自身的能力和水平也得到了提升。如果仅仅靠看书、研究案例,是无法显着提高医生水平的。同理,维修工作类似于医生,既需要学习,也需要案例来支持能力提升。这也是为什么有核心网前辈说:培养一个成熟的核心网人员,至少需要3年的时间。监管能力不足目前的设备监控方式是:设备产生告警后发送给厂家OMC,厂家OMC再发送给集中故障系统,集中故障系统再发送EOMS工单给维修人员(监控人员会同时手动通知部分告警)这种监控方式不仅适用于核心网设备,也适用于所有无线、传输、电力等专业设备。不仅适用于网管中心,也适用于所有分支机构。这种模式经过多年的运行,至少暴露了三个主要问题:第一个大问题:故障通知存在延迟,难以实现核心网无故障。核心网的维护目标应定位为:不出现重大故障。大故障不是突然从0变成大故障,而是从0变成小故障,然后发展成大故障。在故障监管方面,核心网需要有足够短的告警通知时延,多短?我认为目标是在15分钟内。事实上,现有模式下部分告警的延迟已经超过1小时,甚至更长。第二大问题:没有对告警进行聚类分析,监管无法准确定位根因。举个例子:所有核心网设备都会接入承载网,承载网接入CE。如果CE出现问题,必然会引起与之相连的设备出现故障告警。不同类型的核心网设备同时出现故障的概率较小。因此,在这种情况下,需要同时判断CE是否故障,同时通知承载网专家。总之,故障根因定位(尤其是跨专业的故障根因定位)在目前的运维体系下至少是缺失的。这导致监控人员和专业人员判断故障的标准不一致。监控人员在判断故障时只有告警,而专业人员判断故障有多种方法。这就导致了只有通知功能而不能执行“指挥调度”功能的监控的出现。第三大问题:监控系统本身的故障会导致告警通知系统失效。所有设备都有故障率,区别只是故障率的大小!那么,我们的故障监控系统会不会失效呢?监控系统是一个依赖多专业、多人协作的系统。多专业合作:涉及大量不同厂商的合作,如核心网设备告警的准确上报、厂商网管的稳定运行、集中故障软硬件的稳定运行等系统。还有中间环节的升级改造等情况。任何一个环节的故障都会导致监控系统的故障。管理视图和维护视图严重不一致。我举个例子:一个星期六的早上,有领导问我为什么核心网的故障数量会增加这么多?(指的是每日监测每天)直到下午4点才全面分析完毕。领导的提问从机制上至少反映了三个问题:问题一:什么叫管理者的观点和维护者的观点不一致?每天的监控不会发送给维护者。维修人员接触不到生产资料,导致管理人员的要求与维修人员的工作不一致。简单的说,如果领导有这个信息,但是维护人员没有这个信息,维护人员可能不会注意。问题二:管理视图和维护视图的定位已经错位。我对日报本身没有负面看法。我把日报定位为管理观,是领导看到的或者需要知道的信息。领导看到的信息应该是各级信息经过分析处理后的总结。管理视图的定位是用来驱动工作的执行还是用来获取信息?就监控日报而言,我觉得这个管理视图应该更多的用于信息汇总。它还缺乏维护者视图与监控日常管理视图相结合来推动工作实施。简单来说:目前对监控日报的分析只是对专业告警总数的分析,并没有对各类设备设备的告警量进行统计分析。需要分析各种类型的设备和每台设备的告警量。这些分析将被三级管理人员和主管级别的管理人员用于管理。同时,这种维护视图还需要维护人员对设备进行管理。对于上级领导,他们的管理观具有信息下钻的能力:既能看到总量,又能看到各专业的详细分析。简而言之,管理视图可以直接看到特定类型和特定设备的告警数量、类型变化和变化趋势,并且可以直接看到负责人。而这项工作不需要人来完成,而应该由系统自动完成。这是最理想的情况:管理人员可以通过管理界面获取各种信息,各种大山小事尽收眼底,感觉一切尽在掌握之中。维护人员可以通过维护界面获取处理问题的必要信息,而且越分析到底越好。最后,总部的一段话总结了当前运维的尴尬:网络的稳定运行还是要靠运维人员的维护操作,不能即插即用,不能自愈。流程没有端到端的连接,数据和系统是分离的,完成一个或一类任务需要跨系统,没有统一完整的视图。规则主要依赖人的经验,支撑手段数据、算法、人工智能驱动不足。数据自动采集、自动呈现手段不足,大量宝贵的人力资源消耗在数据采集、整理、反馈等工作中。面对5G时代,核心网的稳定性更为重要。如何实现高可靠的设备稳定性,对网络运维提出了更高的要求。我们不是生活在刀耕火种的农业时代。现代网络运维工作必须依靠智能化的工具和系统来获取运维信息,提高运维效率。同时具备自动发现问题、自动定位问题、自动解决问题的能力。也就是我们常说的“智能运维”。