大数据技术和人工智能技术的快速发展,推动运维管理从传统的人工运维向智能运维转变。
AIOps是Artificial Intelligence for IT Operations的缩写,是将机器学习、深度学习等人工智能算法应用于IT运维工具和业务系统收集的大数据集,并尝试模拟人类行为(如发现、判断、响应)智能运维管理平台。
智能运维AIOps为运维管理配备算法和机器学习能力。
通过不断学习,运维人员从复杂的告警中解脱出来,让运维智能化。
Gartner预测,每年整个运维行业的AIOps采用率将达到40%。
人工智能在AIOps中的具体应用。
传统运维方式在监控、问题发现、报警、故障处理等方面存在明显缺陷。
它们需要大量依赖人的经验,工作效率低,并且在数据收集、异常诊断和分析方面存在问题。
、报警事件和故障处理效率有待提高。
那么,AI技术支持的AIOps能否解决这些问题呢?下面我们将从监控、问题发现、报警、处置四个阶段来介绍人工智能技术在各个阶段的应用和价值。
智能监控公司大量使用APM、NPM、日志、DEM、基础设施监控等监控工具来监控各个技术栈。
然而,大量无效/无用的数据会增加后端数据处理的压力,漏接的数据可能导致问题和故障的漏报。
另外,监控工具需要大量的人工调试和配置,严重依赖运维人员的经验,人力成本巨大。
。
在智能运维方面,采用基于机器学习算法的智能数据采集器,实现智能数据过滤、关键数据识别、采集密度和频率调整以及采集服务器的性能平衡,从而提高数据采集的准确性,最大限度地减少人力。
干预水平,降低人工成本,提高运维管理效率。
智能问题发现企业IT系统规模的扩大和运维环境的复杂化,使得运维人员从海量数据中发现问题变得越来越困难。
AIOps通过智能异常检测、故障关联分析、故障根因分析、智能异常预测等能力,帮助运维人员快速定位问题,追溯故障根源,实现故障预测预警。
以智能异常检测为例,通过人工智能技术,如基于密度算法的异常检测(LOF)方法、基于Ensemble的快速异常检测方法、基于历史数据模型的异常检测等方法,可以自动、真实地检测异常。
-及时、准确地分析系统中发现的异常情况的监测数据,为后续的故障分析和处理提供依据。
故障根因分析就是在众多可能引起故障的因素中,追溯故障的症结所在,找到根本的解决办法。
可以利用机器学习或深度学习方法来发现不同因素之间的强相关性,并利用这些关系来推断哪些因素是根本性的,帮助用户快速诊断问题,提高故障定位速度和修复效率。
此外,故障通常不是孤立存在的。
海恩定律告诉我们,任何不安全事故都是可以预防的。
智能异常预测通过对重要特征数据学习预测算法,实现故障的早期诊断,避免损失。
故障预测场景包括:磁盘故障预测、网络故障预测、内存泄漏预测等,可以大大降低运维背锅的风险。
智能告警传统的告警管理一般采用固定阈值,需要运维人员手动设置。
这种方法不仅需要巨大的工作量,而且非常依赖运维人员的经验。
阈值设置不当可能会导致警报风暴或漏报。
当监控环境发生变化时,原有的固定阈值无法满足报警管理的要求。
智能运维采用动态基线报警方式,智能分析数据的动态极限(即当前状态相对于历史时刻的数据范围),弥补了以往人为设置固定阈值的缺点,智能分析数据发展趋势和数据动态。
限制,从而对报警做出智能判断。
各种监控工具会产生大量的报警信息。
这些告警信息可能包含大量冗余告警,甚至形成告警风暴,会对运维人员造成极大干扰,降低运维工作效率。
对于短期、大批量、甚至连续的冗余告警,智能运维可以根据相似性和相关性判断,对这些冗余告警进行合并,从而为运维人员提供有效的告警信息,可大幅降低运维成本。
工作困难。
在运维管理中,如果某个告警长时间无法解决,系统会将告警上报至上层进行处理。
这种警报策略称为警报升级。
传统运维中,一般采用“固定时间间隔”的方式来设置报警升级策略,其潜在的滞后性可能会给业务带来一定的损失。
云智慧智能运维解决方案通过梳理性能与业务之间的关联性,建立模型。
当绩效指标出现异常时,分析对业务的影响。
如果影响超出条件,则报警事件自动升级,系统发送升级事件通知。
将报警处理到对应的报警组,避免报警处理不及时造成业务损失。
智能自动故障处理在传统运维管理中,故障处理很大程度上依赖于运维人员的经验。
然而,人类的经验无法涵盖所有??故障范围。
运维人员经验不足可能会导致运维效率低下或导致错误决策。
智能运维将API接入的实时监控结果或预测结果引入决策知识库(智慧大脑),智能生成决策建议,并根据实际结果和趋势确定处理策略,可以手动处理,也可以自动处理,有效减少了故障排除的时间,大大提高了问题解决的效率,提高了企业运维的标准化程度。
智能运维AIOps的价值得益于大数据、云计算和人工智能技术的发展,使得传统的严重依赖人脑决策、人工操作的IT运维模式迅速转变为如今的运维模式。
AIOps。
尤其是基于机器学习的人工智能技术的快速发展,帮助解决了传统运维中的大量痛点,特别是在异常检测、异常预测、关联分析、根因分析、报警抑制、自动故障处理等方面等方面和环节发挥作用。
以云智某大型金融客户为例,通过使用云智智能业务运维平台,无论是整体运维效率还是核心KPI都得到了大幅提升。
与此同时,IT运营也初步实现了数字化、智能化。
。
人工智能浪潮下,AI支持的智能业务运维可以为企业提供从智能报警、故障预测、故障检测分析、故障定位到故障处理的闭环运维能力,助力企业数字化转型并实现商业成功。
健康持续增长。