当前位置: 首页 > 科技观察

AIOps落地难?仅需9步构建一套AIOps的最佳实践

时间:2023-03-20 17:08:03 科技观察

实施AIOps难吗?只需9个步骤即可构建一套AIOps最佳实践DevelopasetofbestpracticesforAIOps。当我和客户谈论AIOps时,他们常常觉得AIOps还不够成熟,无法实现各种分析。也有人认为AIOps的各项能力是线性发展的,必须在“处理大量事件和告警,以及统一和分散的监控”方面对当前的能力成熟度进行评估和补充,才能考虑切入AIOps。我完全理解他们的担忧,经过数十年的僵化ITIL思维和分析师和供应商灌输的僵化流程,使得每个人都不愿意为长期存在的问题寻找替代解决方案。诚然,AIOps不直接受ITIL约束,可以逐步实施和完善,但业界仍缺乏切实可行的行动指南。本文通过前、中、后期九个步骤,给出了AIOps必要的最佳实践。AIOps速览Gartner判断的IT新兴市场趋势是:传统的IT流程和工具不再适合应对现代数字业务带来的挑战。这不仅与数据的传输速度、类型、数据量有关,还关系到从离线历史分析到在线实时分析的转变。Gartner对这一趋势的回答是:AIOps。它在数据平面上集成了IT服务管理(ITSM)、IT运营管理(ITOM)和IT自动化。AIOps使数据驻留在支持实时应用程序分析和深度历史查询的大数据平台中。这些分析可以通过机器学习实现,从而实现数据流的无人值守处理。因此,AIOps的基本思想是:传统的IT工具仍然起作用,例如服务管理仍然处理各种请求和事件;性能管理仍然监控各种指标、事件和日志。但是他们的数据通过机器学习进行关联和分析,从而能够更好更快地制定决策并实现任务流程的自动化。结束状态AIOps的结束状态是确保数据能够从多个数据源顺畅地流入一个大数据平台。该平台能够摄取、分析和后处理来自其他来源和类型的数据;通过机器学习管理和修改分析算法。它可以自动触发工作流,其输出将作为辅助数据源反馈给系统,使系统具有自适应性,并根据需要自动调整并通知合适的管理员。基于以上概念,我将首先提出一个必要且可行的“路线图”,然后详细阐述AIOps实施过程中可以采取的具体步骤,构建一套AIOps最佳实践。AIOps路线图分为9个步骤,它们是:确定当前用例就系统文档达成一致确定成功标准并开始跟踪它们当前和未来状态的数据模型分析分析工作流程使组织适应新技能组合定制分析技术早期阶段识别当前用例鉴于变量,最好从您熟悉的内容开始。对于大多数用户来说,他们当前的各种用例场景无法应对这些新技术的发展。因此,您可以列出当前正在处理或准备解决的用例。下面给出的切入点将使您能够发现当前的“目标”状态:列出如何实现各种预期结果评估特定用例的优先级突出当前能力、工具、技能或流程中的差距这也是开发成功的AIOps策略。通过强调这种“开启”的方法,我们将发现许多新的用例。各种新的预期结果也会出现,它们的优先级将随着您的业务和技术的变化而相应调整。可见,新的AIOps方式会给我们带来各种新的可能和挑战。因此,重要的是能够从一开始就找到从您所在的位置到目标的桥梁。只有找到自己面临的问题和需要改变的地方,才能选择正确的路径去实现,否则注定失败。评估数据自由度AIOps的第一个基本要素是来自不同工具的数据流可以自由地聚合到一个大数据存储中。因此,您必须评估IT系统中捕获的各种类型数据的易用性和频率。我们理想的最优模型是实时发送数据流。然而,目前很少有IT监控或服务台工具支持数据流出。当然,他们迭代的最新版本应该能够以RESTAPI的形式提供程序化的交互和支持。但是,如果您使用的是基于Oracle或SQL之类的传统关系数据库,因为它们最初并非设计用于支持连续数据流,即使具有可编程接口,它也会对您的生产系统的性能产生巨大影响,所以我们可以断言他们不支持数据流。可以看出,在制定AIOps策略的初期,其中一个重要的步骤就是明确你的系统支持数据流的能力,并对以下问题给出相应的答案:我如何从我当前的IT中获取数据工具?我可以获得什么样的数据?我可以以编程方式进行吗?我多久获取一次这些数据?通过发现这些限制,您可以考虑改变当前的数据集成策略(例如,将批量上传模式转换为流式传输),甚至可以考虑将现有的IT工具替换为支持实时数据流式传输的工具。就记录系统达成一致AIOps的第二个基本要素:组织协作和沟通。我建议IT运营和IT服务管理协作审查各种数据的要求,同时就各自的角色和职责达成一致。在这里,我们主要关注基于共享数据的协同决策。我们这里说的数据,并不是已经流入AIOps大数据存储进行分析的数据。它是IT可以从他们自己的环境中学习的数据,用于采取行动和做出决策,并最终能够跟踪效果。因此,整个团队需要就以下数据达成一致:突破系统当前限制所需的最小数据集数??据所在的位置团队可以共享的联合视图和访问权限根据传统的ITIL模型,在许多成熟的组织,针对上述情况的系统就是他们的帮助台。各种服务请求、事件和变更数据都存储在这里。但是当DevOps团队开始使用Jira(译者注:一种项目和问题跟踪工具)来记录缺陷和功能改进时,这种模式将受到挑战。因为在使用APM(译者注:用于监控和管理应用软件性能和可用性的工具)时,IT运营和安全团队无法通过各种本地或远程事件捕获或识别许多威胁。因此,准备实施AIOps意味着:您需要确定应用程序、服务或业务价值链中的所有有效结果指标,并制定计划将这些数据整合在一起。你可以在大数据平台上构建各种“仪表盘”,筛选出特定用途的大数据集,即对不同的数据源产生不同的视图。当然,您可以从“选择当前环境中的数据子集并将其反馈(如Jira工单、APM事件等)到已建立的记录系统”开始。制定成功指标并开始跟踪它们任何成功的业务和IT管理都始于了解各种关键绩效指标(KPI)和指标。因此,可操作的方面包括:知道要衡量什么实施一致和全面的措施定期报告或可视化绩效衡量使责任方承担责任的能力大多数IT工具通常都带有几个衡量工具和模板,它们通常能够为您提供各种参数.而我们都知道:数量并不能真实反映其背后的因果关系。如果只是单纯的放在报表上,并不能给企业带来业务上的提升。Mid-PhaseEvaluatingDataModelsinCurrentandFutureState数据模型评估是一个关键方面,很少有人真正理解或想做。本质上,您必须为您即将推出的AIOps解决方案明确每个数据源的数据模型,以确保这些模型能够被AIOps用例识别,然后评估不同模型之间的直接交互和预期结果。我们说它有点挑战,因为大多数IT工具的数据模型对用户来说是不可见的。很少有组织,甚至一些数据分析师或专家,真正了解大数据平台(使用NoSQL)与传统数据库(使用SQL)有何不同。AIOps本质上是将来自不同IT(和非IT)来源的数据关联到一个大数据存储库中,使它们可以互操作以进行分析和趋势分析。AIOps系统可以处理多种共享数据结构(如下图),无需额外二次开发或改进:按时间顺序分析。属性:与事件、日志或指标关联的信息键值对(key:value),如“state”、“source”、“submitter”等,可用于创建不同对象之间的关系模型数据集。历史的:时间序列或事件活动的过去数据,可用于预测未来性能或阈值,例如饱和度和降级。作用:一天、一周、一个月等时间序列数据所呈现的趋势或规律,可用于关联多个数据集或预测资源需求以实现可扩展性。应用程序、服务和业务模型:如果您定期进行发现和配置管理,您可以使用它们来通知AIOps平台有关各种资产的分组、关联、依赖和重复数据删除。简而言之,AIOps通过构建良好的时间序列数据,可以使用各种运营监控和管理工具,对各种时间序列数据进行关联、分析和预测,进而实现:整合IT和非IT数据,例如:用户数+性能,延迟时间+转化率;并且可以增加数据的“粒度”,例如:从5分钟到1分钟;对数据流进行应用层面的分析,例如:实现“实时”或特定历史时间段的查询。人类捕获的事件往往是非结构化的;大多数设备捕获的IT事件blob只是半结构化的。它们都存在:格式不一致、不完整、大量重复等等。因此,AIOps应该提供这些IT事件属性的范式转变,为进一步分析做好准备。今天的许多AIOps专注于事件的管理、分析和关联。一旦数据流入AIOps平台,我们必须考虑它的数据结构和完整性是否支持机器分析。一种常用的方法是对传入的数据进行“ETL”(Extract抽取、Transform转换、Load加载),即在数据流中进行归一化和集中转换,从而实现数据的关联分析数据。当然,在采用AIOps方案之前,企业可能会面临两方面的压力:大量的数据需要转换、处理和分析,可能导致现有系统无法达到实时性,或者升级成本高。需要人工管理和维护各种数据的结构和标准,否则系统只能处理已知的模型,无法应用于新的数据类型。此外,大多数云服务系统也将“标签”策略作为最佳实践。它们的工作方式是对不同类型对象的属性变量进行哈希处理,然后独立于对象本身,仅使用标签进行引用、排序、关联和分析。与具有固定公共值的预定义映射不同,标签可以随数据一起变化。NoSQL数据库和Elasticsearch等大规模分析工具能够通过标签处理各种属性关系。此外,系统还可以在数据进来时对其进行实时标记,避免出现特征未知的“盲数据”。由此可见,企业需要借助具备ETL或标注能力的AIOps大数据平台,实现对数据模型的实时评估和控制。分析现有工作流程至此,我认为您对AIOps场景的分析已经准备就绪。这里的分析不是来自IT工具,而是您定期或偶尔进行的离线手动分析,以改进流程、降低成本和提高性能。您可以通过手动分析AIOps场景,迭代解决自动化过程中出现的问题,从而减少人工分析的工作量,增加分析的频率和范围。可以看出,AIOps的目的是减少你花在手工工作上的时间和精力,通过提高速度和频率来实现数据集的自动化实时分析。自动化入门诚然,每个人都知道自动化的价值,但不同的团队对它的理解不同。随着DevOps带来的持续集成与交付(CI/CD),IT运维的自动化路径也产生了相应的影响。IT运营(ITOps):专注于自动化任务和协调步骤。其中包括:自动化帮助台的工作,自动修补服务器,以及通过监控工具自动纠正系统错误。难点在于各种工具之间的步骤协调和相互联动。DevOps:专注于自动化自己的开发任务和业务流程,消除瀑布式开发带来的分段审核流程、隔离测试、行为合规、运维联动等带来的瓶颈和滞后。可以看出,DevOps应用团队旨在通过创建新服务(如云应用)来加快集成和交付的速度和频率。IT运维团队需要“自动化一切”,他们需要协调的不仅仅是CI/CD,而是整个“链条”。如果他们不知道服务何时从测试转移到生产、谁拥有源代码以及它如何影响生产环境,以及如何识别和衡量业务开发人员工作的积压,那么他们就无法真正有效地做到这一点.管理您自己的自动化环境。因此,IT运维需要跟上DevOps团队的速度和敏捷性,综合运用工具发现信息、共享信息,通过与DevOps的沟通“带出自己的存在感”。后期开发新的分析工作流通过中期对现有工作流的分析,你应该能够自动化和扩展你的AIOps解决方案,同时实现以下几个方面:评估现有工作流的价值修改和改进现有工作流程根据现有差距开发新的工作流程一旦现有流程在AIOps平台中实现自动化,我们就可以更进一步评估:正在分析的信息是否真的有用?其趋势判断的结果是否可行?如果需要更改,会有什么影响?我们可以利用现有工作流程的分析结果,形成“正反馈”来开发新的分析工作流程。使组织适应新的技能组合在角色中,IT运营人员将从一般的“实践”转变为“审计员”。他们应该跳出卡壳十几年的完全掌控设备的观念,把目光转向业务数据的分析。虽然不需要深入的数据科学机器分析级别,但他们确实需要了解系统如何处理数据以及它是否能够实现业务目标。这是AIOps给IT运维人员带来的最大改变。尽管整个市场还没有完全成熟,但还是值得各家企业培养具有AIOps能力的人才。随着时间的推移,它们肯定会在组织中带来结构化的科学转变,组织将从中受益。定制各种分析技术最后,在将AIOps应用于IT运营时,组织将需要开发一些数据科学实践。通过数据科学家、开发人员和分析师的协作,他们将开发可以在大型数据集上运行的算法,并在代码上使用Python或R语言来实现各种数据科学模型。当然,IT运营人员不必了解太多数学和编程知识;他们只需要能够管理一个半智能、半自主的系统架构。考虑到AIOps供应商提供的多种替代分析系统,他们应该能够选择最适合其环境的组合。在日常运营中,AIOps平台还将能够提供实时的、定制化的回归分析,以协助做出各种决策。【原创稿件,合作网站转载请注明原作者和出处为.com】