近年来,企业业务规模的激增导致运维场景的复杂度呈指数级增长。原本依赖人工经验的运维工作难度变得更具挑战性,而基于机器学习AIOps的智能运维开始受到企业IT人员的关注。AIOps(AlgorithmicIToperationsplatforms),即基于算法的IT运维平台,也是DevOps未来发展的一个趋势。简而言之,AIOps将机器学习算法引入到运维监控和故障分析领域,例如通过算法、建模、推理等方式,辅助DevOps提升效率,降低业务和系统风险失效系数。雷锋网发现,时序异常检测、故障根因分析、业务调度等常见任务是当前运维人员面临的挑战。那么,智能运维(AIOps)在实际业务场景中是如何实现的呢?Gartner为用户提出了三点建议:一是通过增量方式保证AIOps各项功能的成功部署。其次是选择能够支持广泛的历史和流数据类型的AIOps平台。第三是选择能够系统地推进面向IT运营的分析和机器学习四个阶段的工具。为此,雷锋网整理了Gartner最新的《AIOps平台市场指南》,帮助用户快速了解当前新兴的AIOps市场情况。主要发现是,AIOps在企业IT运营中的应用逐渐升温,一些比较成熟的组织正在使用该技术为业务领导者提供洞察力。AIOps技能和IT运营成熟度是确保其快速实现价值的共同因素,而数据质量成为更成熟的部署架构面临的新挑战。企业采用AIOps平台增强应用性能监控工具(APM)和网络性能监控诊断工具(NPMD)。供应商正在制定策略,使用机器学习来分析IT运营遇到的数据挑战的数量、种类和速度。同时,他们也在构建定制数据存储和人工智能实践的能力。定义AIOps平台利用大数据和机器学习,通过可扩展性和对不断增长的数据的分析来支持所有主流IT运营功能。该平台支持同时使用多种数据源、数据收集方法以及分析和呈现技术。AIOps可以增强广泛的IT运营流程和任务,包括性能分析、异常检测、事件关联和分析、IT服务管理和自动化。其核心功能包括:从多个数据源获取数据数据分析:获取数据时进行实时分析;存储数据时进行历史分析提供对数据的访问使用机器学习根据分析结果执行后续步骤。(注意:分析旨在用于预测可能发生的事件并及时回顾以确定当前系统行为的根本原因。)市场分析迄今为止,很少有供应商提供全面、集成的AIOps平台。但是,许多供应商提供广泛的内置AIOps功能集成。为了更清楚地描述市场发展和供应商水平,Gartner将目前可用的AIOps功能分为两部分:数据管理和分析结果:数据采集和处理历史和流数据管理——软件或设备允许数据采集、索引,以及存储日志数据、互联网数据、指标、文档数据,由此产生的数据库大多是非结构化或多结构化的,而存储的数据集是海量积累的,并以高速变化的格式构建。这种历史数据管理功能可以称为“大数据管理”。为了协助IT运营人员,此类工具必须在时间尺度上表示人类感知的数据,并直接提供数据而无需访问存储数据库。此外,它必须跨多个实时和历史数据流提供连贯的分析。分析结果基本和高级统计分析-单变量和多变量分析的组合,包括相关性、聚类、分类和推理的使用。模式发现和预测自动化——使用上述一种或多种类型的历史或流数据来得出可以从数据集本身推断但没有直接相关性的数学或结构模式。这些模式可用于对不同时间概率的事件进行预测。异常检测-确定正常的系统行为,然后识别与正常系统行为的偏差。根本原因识别——进一步完善由模式发现和预测自动化组件构建的相关网络,以隔离代表真正因果关系的依赖关系,以提供有效的干预。规范性建议-对问题进行分类,将其归入已知类别。然后,挖掘以前的解决方案,分析它们的适用性并优先修改它们。最终,这些将使用闭环方法,在使用后对其有效性进行投票。拓扑——为了让AIOps检测相关且可操作的模式,它必须围绕所获取的数据形成,这就是拓扑。使用拓扑作为因果关系确定的一部分可以大大提高其准确性和有效性。发展方向过去二十年,人工智能技术间歇性地影响着ITOM的发展,而AIOps平台只是这种影响的最新例证。一方面,IT运营面临着降低成本的压力,同时增加了运营的复杂性。关于后者,可以从容量、类型、速度三个维度来定义:容量,IT基础设施和应用产生的数据量正在快速增长(每年增长2~3倍);指标、日志、网络真实数据(有线数据)、知识管理文档等越来越多;由于云原生或其他架构的采用,数据产生的速度在不断提高,IT架构也在不断变化。考虑到现代企业所需的洞察力,这些不同维度的操作复杂性成本非常高。现有的监控工具在处理大量、多样化和快速增长的数据时承受着很大的压力。更重要的是,监控工具不会跨平台挖掘其他类型的数据,尤其是用户情绪数据、业务交易数据、传感器遥测和来自各种系统的日志以获取更多见解。为此,业务负责人和IT运营团队等非IT团队对AIOps技术越来越感兴趣。当他们探索他们正在探索的通用平台时,部署它时最大的问题是IT运营实施不同用例时AIOps平台的性能和成熟度。迄今为止,AIOps主要用于支持IT运营流程,以监控或观察IT基础设施、应用程序性能或数字体验。此外,机器学习是否被用于在事件管理环境中删除重复数据,或者在APM中结合基于字节码检查的分布式跟踪数据来分析应用程序日志数据,这都是有意义的。AIOps平台正在扩大它们可以捕获的数据类型的范围。过去,厂商只支持提供日志数据,而现在,数据范畴已经扩展到互联网真实数据。因此,考虑到供需趋势和技术差异,Gartner预测在未来五年内,AIOps平台将成为AIOps功能交付最广泛的形式,而不仅仅是将AIOps功能嵌入到APM、NPMD、ITIM。同时,IT组织也开始在DevOps环境中探索这种方法,以在部署前预测潜在问题并监控潜在安全问题。Gartner认为,AIOps将演变成一种双向解决方案,不仅可以捕获数据进行分析,还可以根据分析采取行动。这些操作很可能通过与其他ITOM/ITSM工具集成,将采用多种形式,包括:警报问题分类配置管理数据库(CMDB)日志记录操作聚合、分析、操作,具有数据聚合和分析的核心功能。目前,部分企业用户使用开源技术进行数据采集,从而绕过APM,以AIOps作为监控功能的主要方式。可见,关于监控工具和AIOps的争论才刚刚开始。从长远来看,APM将主要应用于专业领域,而AIOps将适用于更广泛的IT运营场景。随着未来市场的发展,Gartner也观察到AIOps能力的一些重大变化:首先,提供独立于数据源的AIOps平台的厂商进入市场。这些产品往往是通用的,可以解决最广泛的用例。两个是拥有关键组件但通常数据源有限的供应商,他们通常专注于一个领域(例如网络、端点系统、APM)。这些工具往往只有一组有限的用例,针对某些IT操作。三是部分厂商现有的监控方案将数据源局限于自家监控产品,或者扩展到有限的合作伙伴。第四,一些用户可以通过开源项目提供数据采集工具、大数据平台、机器学习和可视化技术来组装自己的AIOps平台,最终可以混合或匹配来自多个供应商的组件。目前,市场上有一种声音:AIOps是否会取代以APM、NPMD、ITIM、DEM为主导的以领域为中心的监控工具?其实这是一种迷惑。AIOps并没有取代监控工具,而是增强了分析能力和更多可操作的数据。以领域为中心的监控工具将继续存在,为专家提供他们领域的数据采集、分析和可视化。只是数据会流向AIOps平台,AIOps平台充当数据集中器,用于连贯的跨域分析。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。
