今天,随着大数据在业务的各个方面激增,IT团队面临着处理庞大的操作量和复杂性的艰巨任务。因此,企业对AIOps的需求正在增长。AIOps(IT运营中的人工智能)利用大数据和机器学习(ML)以人类无法达到的规模和速度预测、识别、诊断和解决IT问题。私募股权和风险投资公司InsightPartners最近的一份报告估计,从2021年到2028年,AIOps平台市场规模将以32.2%的复合年增长率增长,从2021年的约28.3亿美元增长到2028年的1993亿美元。美元。也就是说,有效的AIOps解决方案不会一蹴而就。一个完整的AIOps解决方案来自于随着时间的推移不断完善的解决方案,由三个基本组件组成:数据、分析和领域专业知识。数据没有数据就没有成功的AIOps,这部分很关键。虽然数据供应充足,但挑战是以可用且可靠的形式获取数据。AIOps依赖于来自不同来源(例如网络性能、业务系统和客户支持)的数百甚至数千个数据点,所有这些都在几秒钟内生成,在许多情况下以亚秒级的速度生成。处理海量数据的方式决定了AIOps解决方案的成败。设备上和设备外数据管理的独立管道在速度、成本效益和最大效率方面产生最佳结果。传统的单一内部数据处理模型不再适合当今数据集的复杂性和海量。相反,考虑将数据处理漏斗构建或重新架构为两部分:通过实时本地数据总线进行时间关键型分析的精简、快速处理管道,以及用于分析的第二个更强大的管道云剩余数据。将内部数据生产减少到最低限度,并分配云(配备弹性计算和更复杂的存储功能)来处理剩余数据,从而实现更快、更经济的数据合成。管理内部和外部数据的单独管道模型可以增强组织每小时处理数百万个数据点的能力。机器学习(ML)算法可以帮助确定每个管道传入数据的优先级,并将原始的非结构化数据转换为对客户服务或IT运营团队至关重要的可用指标。从双管齐下的系统中获得的效率和速度还使组织能够部署增强的监控功能,以获取有关网络性能的实时可见性和长期趋势信息。分析AIOps成功的第二个关键要素是分析。AIOps分析分为两个阶段,包括探索性分析(筛选原始数据的趋势或需要额外检查的异常)和高级统计分析(转化为可操作的见解)。虽然探索性研究起着不可或缺的作用,但当数据通过管道时,工程团队往往急于跳到高级统计分析。绕过这个初始阶段可能会导致数据偏差——将偏差注入AIOps过程并错误识别问题,使AI/ML算法变得无用并导致不良的操作后果。探索性分析依赖于ML和数据科学家来识别和查明重要的特定指标。在此过程中,IT团队可能会倾向于ML——一种令人兴奋且富有成效的技术。但纯ML并不总是最有效的分析方法。ML试图根据一组特定的参数来解决特定的问题。工程师根据他们认为得出结论A、B或C所需的指标来编写ML算法,从而排除其他可能的解决方案或统计数据。相比之下,统计学家和数据科学家检查原始数据时并没有考虑特定的结果,而是为了数据中的模式或异常。手动数据审查是乏味的,但专家可以立即确定IT解决方案,而无需高级统计分析。当团队确信在探索阶段发现的趋势或异常是正确的时,他们可以继续进行高级统计分析和训练AI/ML算法。即使是AI/ML也需要反复试验,并且不会立即产生结果。每个AIOps解决方案的背后都有一个领域专家团队,他们广泛调整和测试AI/ML模型以确保AIOps的成功。在不同专业领域成功实施AIOps的第三个要素是领域专业知识。在AIOps的创建上,没有太多的经验可以借鉴。在任何企业中成功部署AI都需要来自不同领域的专家的参与。例如,在网络运营领域,网络工程师了解ML系统的细微差别以及准确解决特定问题所需的AI算法。同时,非技术专家带来了行业特定的知识,例如数据集的来源和可用性、业务战略和运营。大量领域专家确保AI/ML算法反映真实世界的操作,提供关键的结果验证,并作为检查错误方法或意外后果的重要工具。例如,正在进行计划维护的通信系统可能会表现出通常指示有问题状态的行为(例如极低的网络流量)。在与维护票务系统通信的模型预测中添加业务逻辑层可以消除这些误报。领域专家发挥着重要作用,因为他们可以向渴望AIOps解决方案的高管们解释。ML倾向于在黑匣子中运行,使团队无法清楚地说明模型是如何做出特定决定的。这可能会导致企业高管对人工智能驱动的洞察力和行动产生怀疑和犹豫。另一方面,可解释的人工智能可以从不熟悉AIOps的商业领袖那里获得更强有力的支持和信任。AIOps需要三个核心成分,但是,就像任何食谱一样,这些成分的质量以及将它们放在谁的手中,将决定最终结果。试错是创新过程的一部分,尤其是在训练ML的复杂艺术中。确保正确处理数据、使用正确类型的分析和聘请领域专家将帮助公司提供成功的、可扩展的AIOps解决方案,以满足对运营效率不断增长的需求。
