数字化浪潮,运维能力逐渐成为现代企业的竞争力之一。在过去的几十年里,运维的发展经历了几个阶段。从早期的人工运维,到标准化运维、自动化运维,再到DevOps、AIOps,不难追溯整个过程,发现随着运维的不断发展,运维方式也逐渐走向智能化。技术。2016年,Gartner提出了运维的新概念——“AIOps”,中文意思是智能运维。即以AI等手段为核心,为运维提供更加智能化、数字化的支撑。也就是说,运维脱离了“人”的要素,更多的是放在了“数据”这边。它包含的场景更多,包括异常告警、告警收敛、故障分析、趋势预测、故障画像等。所谓AIOps,简单理解就是基于自动化运维,将AI和运维很好的结合起来。AIOps的落地,在很多方面直击传统运维的痛点。AI算法担负着分析海量运维数据的重任,能够自动精准发现和定位问题,从决策层面提升运营效率,及时为企业运维工作提供保障。成本、质量和效率的优化提供了重要支持。在市场方面,全球IT研究机构Gartner预测:“到2022年,40%的大型企业将部署AIOps(智能运维)平台。”可见,AIOps在企业中的作用正在进一步放大。但实际上,很多企业并不清楚AIOps到底能解决什么问题。今天我们就从博锐数据的三大AIOps场景和算法说起。博瑞数据AIOps实践作为领先的APM应用性能管理厂商,在AIOps实践方面,博瑞数据多年来积极拥抱人工智能、机器学习等新技术变革浪潮,基于AI和机器学习技术,拥有自主研发的“数据接入、处理、存储和分析技术”核心技术体系,全面部署了智能基线、异常检测、智能告警、关联分析、根因分析等丰富广泛的智能运维功能,并将AIOps能力融入端到端的端到端全栈监控产品线,可为传统企业提供强大的数据处理、存储和分析软件工具,帮助客户整合各类IT运维监控数据,实现数据的统一存储和关联分析,打破数据孤岛,构建统一的IT运维管理平台,使企业IT运维更加智能化、自动化。在此基础上,博瑞数据还依托完备的IT运维监控能力,运用大数据和机器学习技术,持续打造先进的智能运维监控产品。2021年,推出搭载AI能力的新一代APM产品Server7。.0和新版Dataview统一智能运维平台,继续实现智能异常检测、根因分析、故障预测等场景。基于AI的能力实现运维监控场景的信息融合、特征关联、业务洞察,帮助企业保障数字化业务的顺畅运行和良好的数字化体验。博锐数据AIOps场景及算法目前,博锐数据在AIOps技术方面主要实现了三大场景。即智能基线预测、异常检测、告警收敛。我们先来看看智能基线预测。智能基线预测是指利用基于历史数据的深度学习智能算法,准确预测未来各时间点的数值,并将预测值作为基线进行监控和报警。如上图所示,未来24小时的数据预测结果用虚线表示,灰色区域表示正常数据的波动范围。如果实际值落在灰色区域之外,则会发生异常。IT运维人员在发现业务服务数据存在问题时,通常会使用动态基线对实时数据进行检查和度量。若实时数据与动态基线数据两条曲线的拟合度相近,则业务相对健康;如果动态基线与实时数据的离散程度较大,说明当前业务存在问题。目前,博瑞数据在智能基线预测中应用的算法包括实时预测算法、离线算法预测和流式算法预测。让我们再看看异常检测。异常检测是指通过对历史数据的机器学习,动态预测数据趋势,无需人工设置阈值,能够根据指标的数据特征自动识别异常。如图,灰色区域代表正常数据的波动范围,红色数据点为异常数据点。IT运维人员在检测应用服务运行状态的过程中,通过AIOps异常检测算法可以判断图中红色区域的数据为异常数据,深灰色条形区域为可容忍的业务波动范围.同时,运维人员还可以通过数据集的特征数据,对当前时间段内的数据进行事件聚合,综合分析当前事件对应用的所有影响的波动范围。目前博瑞数据在异常检测上应用的算法有静态基线(绝对静态基线+差分静态基线)、智能基线+NSigma判别等,最后来看告警收敛。所谓告警汇聚,就是基于多个相关告警信息合并为一个故障,对当前处于故障状态的告警可能造成的影响进行预测和判断,从而实现故障预警,降低影响冗余告警事件对运维工作的影响。干涉。目前,博锐数据在告警收敛方面使用和规划的算法包括事件熵、顶点熵、时域关联、文本相似度关联、拓扑关联、NMF+Kmeans等,助力AIOps的发展行业。AIOps场景、算法和能力进一步延伸和丰富,细化日志异常检测、根因分析、影响分析、自然语言处理、DIY算法等能力,用AI算法赋能日志管理、一体化运营和维护,以及紧急自助服务。鱼快汇、算法实验室等业务场景帮助企业加速数字化转型进程。随着企业业务规模的扩大和云原生、微服务的兴起,企业IT架构的复杂度呈指数级增长。然而,传统的IT运维方式在故障发生后难以查找故障原因,故障平均修复时间长,已不能满足新的运维需求。因此,用人工智能赋能运维,取代缓慢易错的人为决策,快速给出运维决策建议,降低问题的影响,对问题进行预警是必然的。AIOps作为当前运维发展的最高目标,未来将为运维赋能,为用户带来全新的体验。但需要看到的是,目前很多智能运维产品和项目在企业端的落地并不理想。原因归纳为三点:一是数据采集与AI平台分离,多源数据之间缺乏关联,导致AI平台缺乏优质数据,从而导致导致模型训练结果不佳;二是数据采集主要基于指标和日志,造成应用场景狭窄和数据孤岛问题;第三,AI平台能力仍有提升空间。目前实现的场景大多基于异常检测和智能告警。未来需要进一步提升根因分析和故障预测能力。因此,未来企业首先要建设一体化的监控运维平台,一体化是智能化的基础。基于综合监控运维平台采集到的优质可观察数据,以及数据之间的关系,进一步在综合监控运维平台中实现AIOps能力,实现问题的精准定位和洞察。此外,在实际应用中,根据信通院的相关调查显示,只有不到20%的受访企业具备智能监控和运维决策能力,70%以上的企业束手无策应用系统故障后10分钟内。.各行各业的数字化转型正在改变这一局面。不仅是互联网企业,更多传统企业的数字化转型,为智能运维开辟了更广阔的市场。智能运维发展空间巨大。正是企业发力的大好时机。提升创新能力,推进运维智能化,既是相关服务商发展的要求,也是提升中国企业应用管理和运维水平的使命。中国企业的数字化转型正在加速。无论是前端应用服务的迭代更新,还是后端IT运维架构复杂度的增加,都在加速智能运维的成长。
