概述基于人工智能的操作(AIOps)是AI和传统AM/IM操作的融合。与所有其他领域一样,人工智能将对运营管理产生重大影响。当人工智能的力量应用于运营时,它将重新定义应用程序和支持应用程序/基础设施的管理方式。同时运行的多个应用程序会产生大量数据。从网络层直接到API调用最终用户的数据生成的延迟。用户期望在性能上没有丝毫中断的应用程序体验。数据可以从堆栈的不同层获得,这成为推理洞察力的丰富来源。操作的复杂性导致算法IT操作(AIOps)平台的创建。平台解决方案使用AI和ML从监控数据中获取洞察力并增强人类决策制定以推动自动化解决方案。关键用例和解决方案应用程序监控应用程序指标跟踪响应时间、请求/分钟、按时间缩放的加班错误率等内容,并确定其行为趋势。此外,还会捕获CPU利用率、内存利用率和平均负载等基础设施指标,以了解基础设施层如何支持满足应用程序的不同负载条件。随着应用程序复杂性的增加,从预期模式中检测异常变得越来越困难。如果忽略这些异常,可能会导致潜在的中断。该解决方案可以分析和发现不同范围的变化模式,包括应用程序级别、服务级别、事务级别和外部依赖项。首先,确定什么构成了正常的系统行为,然后识别与正常系统行为的偏差。AIOps可以通过查明来源准确地突出显示这些异常值,这有助于实时进行更好的RCA。此外,它还可以防止潜在的中断和基础设施中断。事务跟踪业务事务的范围从点对点应用程序连接之间的简单同步消息交换到更复杂的异步通信。要跟踪交易,需要复杂的跟踪和监控解决方案。长时间运行的多步骤异步事务跨多种技术、层等传输IT基础设施。解决方案复杂的事务通常会变形和分解,通过标记或统计抽样技术对标准跟踪和分析提出挑战。通过检查方法调用和单个消息有效负载内容将事务拼接在一起,将它们关联起来并呈现现有行为和性能中的任何挂起或违规的直观可视化本地化缺陷管理软件质量是软件开发生命周期的一部分在开发之前识别和修复错误非常重要大问题进入生产。生产中发现的任何缺陷都会产生巨大的成本。在这种情况下,由于可用资源有限,查找错误被认为是最耗时和最具挑战性的活动。因此,需要全/半自动化技术来增强软件工程中的手动调试过程。如果开发人员在解决方案中可能定位错误的位置得到一些提示,调试将变得更加有效。可以使用各种图形挖掘算法/技术来定位软件错误。这些技术依赖于区分检测故障和传递跟踪之间的子图。当失败没有出现在罕见的代码模式中时,这些方法可能不适用。另一方面,许多方法侧重于选择可能存在缺陷的程序组件(语句或谓词),然后根据控制流图根据可疑程度和执行跟踪上下文对这些组件进行排序,以达到基线性能用于确定组件在不同负载条件下的应用程序和基础架构性能的基准。负载条件是“正常”、“操作”、“准”、“压力”、“峰值”、“断点”等,基线是一组规则或阈值,用于预计落在上限和下限之间的单个指标下限各不相同。这些相关性传统上是通过在收集按定义的时间间隔收集的性能数据后运行机器学习算法来建模的,并实时部署以在出现任何性能偏差时发出通知。这种方法非常适合组件,但不适用于现代开发方法的“关联”点。解决方案:超融合基础架构管理、领域驱动的应用程序开发、分布式计算的激增、多态编程和持久性的影响改变了软件组件的开发和部署方式。软件组件的频繁更改需要在动态扩展/收缩的基础架构之上持续部署。这种范式转变迫使模型构建练习使用近乎实时的数据,以与应用程序和基础架构组件的最新变化保持相关性。这些模型需要学习新规则并使用实时资源不断发展。预测问题APM中的智能警报正在动态检测异常情况。为了使警报变得智能,该工具需要可配置以了解应用程序的性质及其行为,以便它可以检测异常。定义静态阈值很常见;例如,如果此服务调用需要超过三秒才能返回,则发出警报。然而,确定要监控的重要指标及其针对不同应用程序使用模式的阈值是乏味的,因此需要智能方法来对应用程序的正常性进行基准测试,并在出现异常行为时发出通知。如今,工具足够智能,可以了解您的应用程序的行为并建立基线,允许您定义在基于基线分析请求时使用的策略,并在存在需要调查的实际问题时智能地发出警报。
