当前位置: 首页 > 科技观察

中国移动设计院:基于大数据的人工智能运维服务支撑方案

时间:2023-03-12 06:38:00 科技观察

01.概述运营商在传统的网络运维中,长期积累了丰富的巡检、告警分析、故障处理经验。它的价值没有得到充分发掘。同时,目前人工运维存在系统耦合复杂、数据来源多样、人工维护风险高、维修周期长、人员培训难等现状,导致性能相关告警不明确,无效报警筛选。巡检规则缺失、故障维护只能被动解决、优化/维护工单重复派发等问题,影响网络运维效率和成本。为优化网络运维工作模式,提高网络运维的准确性和效率,提出了集中运维支撑服务方案。基于人工智能(ArtificialIntelligence)的运维解决方案旨在强调实现以维护为中心,依托大数据挖掘技术和深度学习算法实现问题的早期发现,变被动问题处理为主动问题预防,从而提高整体资源利用率和维护效率。02.基于人工智能(AI)核心算法2.1聚类算法(KMeans)通过多维欧拉距离(或余弦距离),迭代对隐患进行聚类,找出关键核心点的特征,挖掘隐患。K-Means算法是一种基于多维距离的聚类算法。通过设置参数K,将样本点分成K个紧凑且独立的簇,每个簇由接近簇质心欧拉距离的样本点组成。计算步骤:随机选取K个中心点遍历所有数据,将每个数据划分到距离最近的中心点计算每个簇的平均值,重复2-3次作为新的中心点,直到这k个中线点不再变化(收敛),或者已经执行了足够多的迭代。以每个基站为样本点,以其性能指标参数和历史告警类别、频率为特征,对所有告警基站进行K-Means聚类。不断迭代,将基于相似性能指标的告警类型进行聚类,深度挖掘各类告警的关键核心特征,作为基站画像、隐患挖掘和管理的依据。2.2传统的分类算法(逻辑回归、KNN、决策树、随机森林)可以通过合并相似的隐患来对隐患进行分类,从而便于发现隐患的等级。传统的分类算法是有监督的机器学习算法,可以针对给定的目标类别对样本进行分类。逻辑回归:基于Sigmoid函数的多特征的二元/多类广义线性回归。多样本分类是通过建立成本函数并使用梯度下降优化来实现的。KNN:K近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K近邻就是将每个样本分类为与其最接近的k个样本的类别均值。决策树:决策树,也称为决策树,是一种用于分类的树结构,其中每个内部节点代表对某个属性的测试,每条边代表测试结果,叶子节点代表某个类或班级分布。决策树的决策过程需要从决策树的根节点开始,将待测数据与决策树中的特征节点进行比较,根据比较结果选择下一个比较分支,直到叶子节点是最终的决策结果。随机森林:从样本集中选取n个样本,构建决策树,重复此步骤m次形成m个决策树,通过投票决定样本类别。以基站为样本点,通过分类方法可以将基站分为隐藏基站和非隐藏基站。以隐蔽基站性能指标参数、资产信息、地理信息、告警类型等级为特征,对基站告警隐患进行分类,确定基站隐患等级,判断基站健康状况站得分。并且它可以根据训练好的机器学习模型评估新样本的健康状况。实现设备状态预测。重点关注隐患等级高的基站,将其相应的性能参数指标作为隐患基因统计,录入隐患管理数据库。2.3异常检测算法核密度估计(kerneldensityestimation)是概率论中用来估计未知密度函数的方法,是非参数测试方法之一。所谓核密度估计就是用一个平滑的峰函数(“核”)来拟合观测数据点,从而模拟出真实的概率分布曲线。核密度估计可用于异常检测,计算异常分布在正常样本之外的可能性,用于异常数据分析和特殊场景分析。对于已经完成画像的基站样本点,对于没有告警的基站,可以进行异常检测,找到性能指标偏离正常值的样本点(性能值不会触发告警),动态自适应设置告警阈值。触发维护工单。有效预警,减少现场告警故障。2.4深度信念网络(DBN)深度信念网络是一种概率生成模型。与传统判别模型的神经网络相比,生成模型是在观测数据和标签之间建立联合分布,对P(observation|label)和P(label|observation)进行评估。DBN由多层受限玻尔兹曼机组成,典型的神经网络类型如图所示。这些网络“限于”一个可见层和一个隐藏层,层与层之间有连接,但层内单元之间没有连接。隐藏层单元经过训练以捕获可见层中显示的高阶数据相关性。深度信念网络可用于样本对象的数值预测和样本类别的分类。对于样本类别的分类,类似于常规分类算法的应用。实现基站告警隐患分级,健康度打分。并且它可以根据训练好的机器学习模型评估新样本的健康状况。实现设备状态预测。对于样本目标的预测值,通过深度置信网络实现基站特征异常概率分析等功能。根据网络性能指标特征的异常情况,进行概率预测,即尝试预测“亚健康”网络。预判网络问题,降低实际发生投诉、性能告警、设备故障的概率。2.5堆叠自编码器(SAE)自编码器(AutoEncoder)是一种无监督学习算法,主要用于数据降维或特征提取。自动编码器由深度信念网络预训练以确定网络权重的初始值。它的目标是使输入值等于输出值。首先用网络权重矩阵对输入进行编码,在激活函数之后使用矩阵转置进行解码,使输出数据与输入相等。这个过程可以看作是对输入数据的压缩编码,将高维原始数据用低维向量表示,这样压缩后的低维向量可以保留输入数据的典型特征。为实现站点画像的智能化,需要对站点性能指标、资产信息、地理信息、历史告警信息等多维度特征进行梳理。通过自编码器,可以对大量特征进行梳理和降维,最终形成构成基站健康指标的多维特征,可以对输入数据进行降维,降低计算成本后期异常检测、告警预测、隐患治理。2.6循环神经网络(RNN)循环神经网络可以用来预测与时间序列相关的样本值。在传统的神经网络模型中,从输入层到隐藏层再到输出层,层与层之间是全连接的,各层之间的节点是不连接的。RNN之所以被称为递归神经网络,是因为一个序列的当前输出也与之前的输出有关。具体表现是网络会记住之前的信息,并将其应用到当前输出的计算中,即隐藏层之间的节点不再是连通而是连通,并且隐藏层的输入不仅包括输入层的输出还包括前一时刻隐藏层的输出。理论上,RNN可以处理任意长度的序列数据。03.端到端运维功能架构3.1NOC端到端运维架构主要由网络运营中心(NOC)和现场外线两部分组成。图1.端到端运营架构图1.端到端运维功能架构NOC(NetworkOperationsCenter)是实现远程实时监控业务运行和检测设备状态的网络化中心,主要涉及运营和维护设计、运维监控、故障分析和诊断测试等几个功能模块可以与运营商的EOMS(ElectricOperationMaintenanceSystem)电子运维系统相结合,进行工单调度。将NOC嵌入到现有运维流程中,可以提高相关技术、流程、组织和管理效率,从而提高网络和服务的稳定性和可预见性。现场外线主要由闭环EMOS电子运维系统承载、处理、下发任务单,包括任务调度、资源调度和现场维护人员的最终故障排查。3.1.1运维设计功能运维设计功能主要包括两部分功能设计:运维规则设计和AI辅助规则设计。图2.运维设计功能,其中运维规则的设计主要来源于运维人员长期积累的相关运维经验,制定分析规则、诊断规则、分配规则、调度规则、激活规则等,将上述规则应用于可视化设计分析,为自动化运维提供快速设计能力。AI辅助规则设计,从传统技术专家的专业设计,转变为AI技术辅助的根因规则设计。将相关网元类型、告警类型、告警信息、告警代码、位置信息等作为输入项,通过神经网络相关算法最终输出AI辅助规则。3.1.2运维监控功能通过数据源、数据表等分析,进行场景监控设计,实现多系统、多接口的监控可视化。图3.运维监控功能图3.运维监控功能场景运维监控可以监控网络全景,也可以选择监控主题定制符合实际需求的个性化监控功能。将以往被动运维、基本无故障预测转变为可预见、可避免的隐患。3.1.3故障分析功能通过部署RCA(RootCauseAnalysis)根因分析规则挖掘工具,根据算法学习内在规律,形成规则放入RCA,检查告警根因并抑制并抑制警报。图4.故障分析功能图4.故障分析功能结合性能指标、参数配置、相关变更、问题日志等进行多源关联分析,进一步确认故障,提高故障分析的准确性和效率。3.1.4诊断测试功能诊断测试功能主要包括两部分:手动诊断指令和自动诊断脚本。图5.诊断测试功能图5.诊断测试功能首先通过人工诊断指令发送给EMS,EMS再将诊断结果反馈给人工诊断指令部分;自动诊断脚本可批量生成指令,由EMS反馈并上报相关诊断报告,对诊断结果或诊断报告中的异常问题自动创建维修工单分配到现场处理,交由后续工序处理的现场工单管??理。3.1.5工单分发功能工单关联RCA关联规则,根故障调度命令,子故障调度命令组合,综合考虑网络拓扑、运维经验等信息,例如,所有同一基站下的小区掉线后,合并成一个业务工单,从源头减少下发单量,提高排障效率。图6.工作单分布函数图6.工单分布函数T1为告警消除的最大时间点,T2为关联分配的时间点,T3为告警分发的最长时限。通过分析历史告警,给出关联的最佳时间点Threshold,减少消除告警的无效订单量,通过关联减少订单总量,提高运维效率,动态设置调度的时间阈值,添加合并订单,减少无效订单和重复订单。3.2异地线路协同3.2.1故障单处理集中故障告警平台输出告警监控结果。在创建TT(TroubleTicket)工单前,需要等待一定的告警清除时间,避免相关工单恢复。当系统收到TT的清除报警信息后,可以自动关闭TT订单和对应的WO(WorkOrder)订单。图7.故障单处理图7.故障单处理通过对历史工单的运维经验和机器学习,挖掘工单关联规则,启动策略,合并重复工单,剔除无效工单。3.2.2任务与资源调度对于外部系统派发的TT订单,在某些应用场景下,不需要进行相关分析处理,直接派发给现场工程师解决。针对该应用场景,系统提供了自动接受TT订单和派送子订单的功能。当系统收到TT订单时,会自动以系统超级用户的身份接受TT订单,然后进行处理。这一步可以自动选择生成WO订单和生成子订单。智能排班主要是利用AI排班引擎,通过AI排班引擎进行工单规划、位置和路线规划、员工能力和工具需求分析,将任务和资源进行组合,达到最佳匹配效果。通过人员调度、资源调度、路径规划等,实现工单“零”时间分配,合理安排人员工作量,提高派单准确性,提高工单平均响应时间和资源利用效率.3.2.3巡检自动化管理巡检自动化管理主要涉及巡检配置管理、巡检规则管理、巡检任务列表、指令适配/执行、巡检报告自动输出等功能。图8.自动巡检管理图8.自动巡检管理巡检配置管理包括基础数据配置管理、设备和网元配置管理、任务/方案管理和门限管理/通知管理。巡检规则管理是制定相关巡检规则(专业网络信息、操作方案)和配置分析规则。在巡检任务列表中,可以查看巡检计划接口定义、巡检计划任务和巡检任务列表。指令适配与执行自动巡检功能发现维护问题,通过模板初始化规则和指令创建规则生成巡检工单,再与指令模板匹配映射创建巡检任务。指令执行后,指令结果反馈给闭环输出检测报告。图9.自动巡检流程图9.自动巡检流程将相关维护需求与现场资产信息相结合;历史数据包括告警次数、故障处理次数、站点流量、数据量等信息;地理位置、面积、地形特征(山地、平原、河岸、洼地等)、耐候性;气象部门输出的相关气象资料,联合制定动态巡检方案,聚焦高故障点,积极防止历史故障再次发生,减少维修资源浪费。3.2.4隐患管理隐患管理主要是对异常项产生智能巡检报警,自动完成报警信息分析,自动生成检修工作计划报警工单,维护人员根据隐患工单处理隐患。图10.智能巡检图10.智能巡检将NFC(NearFieldCommunication)标签放置在巡检设备(铁塔、基站等)上,通过短距离无线通信技术,巡检人员按照设置的路线前往每个可以进行不同地点的巡检,自动显示巡检内容,并按要求填写巡检内容。04.端到端运维软件架构图11.端到端运维软件架构Transform-Load),数据存储和后台业务处理,业务处理控制,业务表现层。其中,原始数据可通过北向平台、EOMS工单系统、维修资产管理系统、动态环境检测系统及对外相关API接口数据(地理气象数据信息)。数据ETL处理用于将数据从源端抽取、转换、加载到目的地,从数据源中抽取需要的数据,清洗数据,最后按照预先定义的数据仓库模型,将数据加载到数据仓库。将相关数据存储在Hadoop集群中,通过AI平台算法和函数(聚类算法、常规分类算法、异常检测算法、深度置信网络、堆叠自编码器、循环神经网络等)结合专家知识库进行智能任务调度及后台业务处理。业务处理控制主要细化各个模块的功能,通过相关的业务逻辑中间件实现模块功能。业务展示层基于前端公共模块的相关技术,将站点画像、区域画像、隐患管理、地理分析等呈现在一个界面中。05.基于AI运维的实现与应用5.1站点画像借鉴互联网用户画像技术,基于多维网络运维数据,引入AI特征画像和异常检测算法,输出站点画像为智能运维的各个模块提供网络特性。全景特征画像和数据支撑,实现隐患点分类标注。融合系统自身大量多通道、多维度的基础数据作为输入,通过无监督学习算法进行聚类和异常检测,输出具有网络特征的站点画像标签和带指标的异常站点列表。(1)站点健康评估根据站点设备类型、性能状况、站点环境、停电情况、备用电源持续时间、站点历史故障等建立站点健康评估指标体系,并设置告警阈值自动触发维护工单,并有效预警,减少现场告警故障。图12.站点健康评估图12.站点健康评估(2)区域可视化使用多种代理维护指标和客观站点运行指标,可以实现区域的全面可视化,并以区域为对象提供统计分析运行维电梯支持的总体指标。图13.区域指标表评价图13.区域指标评价(3)站点维护成本分析通过历史故障维护数据提供站点维护成本数据,包括维护人员、车辆、油机、故障频率等;为流程成本量化、现场维护预算以及后续的投标成本核算提供数据支持。利用AI算法实现告警智能分类,针对特定故障提供智能决策,指导运维人员处理故障,建立员工与工单映射,实现工单精准分配,减少工单派发数量,并提高工单调度的质量。同时与APP关联,缩短故障恢复时间。达到“降本增效”的目标。图14.维护过程管理图14.维护过程管理(4)制定站点维护计划根据站点重要程度、历史故障信息、气象条件等制定维护计划;对维修备件进行预测性管理,降低站点故障率,降低单站点维护成本。图15.现场维护计划管理图15.现场维护计划管理5.2运维效率分析(1)GIS资产全景展示资源信息(人员、车辆、场地、油机)、工单关联、以及轨迹回放;实时了解资源状态,方便调度和管理。图16.GIS资产全景图图16.GIS资产全景图(2)“赛马”Dashboard通过对项目基本维护信息、人员效率指标、车辆效率指标、油机效率指标进行实时、趋势分析和展示-现场大屏监控。监控中心随时了解项目的整体效率和区域赛马情况。图17.大屏监控信息图17.现场大屏监控信息(3)人员效率指标分析人员订单效率指标统计分析,包括详细的工位任务信息和工时信息;车辆效率指标分析,包括末站里程和规划里程分析;找出人员运维效率的短板,进行改进,提高效率。表1.效率指标总体统计数据表1.效率指标总体统计数据(4)APP运维管理人员可以通过手机APP应用,实时掌握和了解项目运维状况和人员效率,以及为管理者提供实时运维信息。维度决策效率数据支持。图18.APP管理座舱图18.APP运维(5)故障预测过去,运维工作是大量的后处理工作。现在通过运维专家的梳理,选出动力环境、历史工单、网络性能。、天气停电、频繁报警、综合资产管理等多维特征构建训练数据集。同时,我们选择了多种AI模型进行对比测试,最终决定采用多层LSTM循环神经网络实现社区停电告警预测,从而达到故障预警分析的目的,并实现运维思维由被动处理向主动预防的转变,摆脱“消防员”的运维状态,实现故障的预判。图19.故障预测图19.故障预测06.总结通过运营商网管、网管、分公司、县公司一线维护人员目标用户,基于人工智能(AI)的运维解决方案)可以提高维护效率和能力,预防性和主动运维能力,快速响应报告能力,快速应急处理能力,自动化减少人员工作量,经验移植减少人员需求,支持市场一线的分级保障能力.将平台融入运维生产,实现业务目标。【本文为专栏作家《移动实验室》原创稿件,转载请联系原作者】点此阅读更多本作者好文