DevOps平台的作用越来越重要,尤其是通过DevOps模式进行软件交付时。DevOps平台以开发人员为中心,为多租户提供自助服务,是多云战略的重要组成部分。它为开发人员提供指南、标准化工具和技术,以轻松构建、测试和迭代产品。然而,弹性伸缩是构建DevOps模型时不可忽视的核心特性。DevOps将单个产品分解为更小但有价值的组件,这些组件可以作为独立的云服务交付。基于该模型的交付团队一旦建立,将以SLA(ServiceLevelAgreements,服务水平协议)的形式提供服务。为实现这些要求,必须建立稳健的监控和警报实践。与任何其他DevOps实践一样,自动化操作是最终目标。但在监控和警报信息方面,AIOps平台是黄金标准。平台价值如果没有AIOps平台,警报消息和事件的数量可能很快就会失控。如何识别和关联来自不同系统的告警信息,尤其是来自独立系统或团队的告警信息,也是一个亟待解决的问题。至关重要的是,机器学习等高级工具和技术无法自我修复,因为没有内置智能可以在问题变得严重之前帮助预测和识别问题。为了确保构建有效的AIOps平台,必须深入了解监控数据。对于致力于实现AIOps目标的DevOps工程师来说,创建可以确定警报优先级并将结果交付给高级补救工具的监控平台势在必行。P1(Priority1,优先级1)事件总是需要立即响应,但P1级别的事件很少见。对于客户而言,低级别事件更为常见。然而,跨系统的低级别事件可能会聚集在一起并导致严重的问题。了解和响应这些需求,并将来自不同系统的警报信息关联起来,需要一个强大的监控系统。如果这些修复措施要有效,就需要建立事件之间的关联,而这些关联需要建立在规则库的基础上,并通过自动化工具进行管理。需要明确的是,先进的监控系统将提供更多的报警信息,因此扩展监控的能力将变得重要。这是云原生DevOps平台最有价值的部分,因为它提供了快速管理不断增长的数据量的有效方法。“左移”和“右移”转向AIOps模型需要结合并实施实践和工具的左右移动。这意味着需要在开发阶段的早期优先考虑监控,并结合来自产品线的持续反馈。一旦在该模型下大规模管理监控告警信息,这些任务可以通过AIOps平台利用机器学习等先进的分析技术进行自动化管理,从而获得更主动、更有效、更动态的观察和修复能力。最终,公司将通过满足服务水平目标、改善交付体验和提高客户满意度来提高弹性。如果没有AIOps平台,补救措施将需要来自不同领域(从云基础设施到应用系统架构)的专家开会以确定事件的根本原因,这将消耗大量时间和资源。AIOps平台可以确保当P1事件发生时,相关告警信息第一时间通知相关领域的专家,从而减少服务中断时间,有针对性地采取补救措施。改善开发者和用户体验如果服务提供商想要构建一个先进的DevOps生态系统,AIOps是必不可少的。它可以为开发者提供安全的CI/CD流水线,为产品变更提供有效的保护。随着产品质量验证的自动化,这进一步提高了企业“右移”的能力。此举自然减轻了开发人员在质量管理方面的负担,减少了同行评审的需要。AIOps模型还提高了客户满意度,因为可以安全快速地迭代应用程序和功能,同时持续维护和优化服务可用性。研究表明,大多数事件(74%)发生在客户在支持团队之前发现问题时。66%的现有监控解决方案只能识别不到一半的性能故障或中断,并且随着IT系统的复杂性(尤其是云服务引起的)增加,将会发生更多的中断。当这些问题逐渐暴露出来的时候,向更智能的解决方案靠拢自然是非常明确和迫切的需求。今天的客户不仅期望服务提供商提供接近100%的服务可用性水平,而且还需要对服务性能的可见性。监控平台可通过先进的报表和数据工具提供可视化服务,轻松打造多功能仪表盘(仪表盘数据展示界面)。DevOps工程师还可以使用这些数据来创建可嵌入到AIOps平台中的自我修复工作流,以进一步增强开发人员的体验。在构建DevOps平台时,DevOps工程师的最终目标是开发为开发人员量身定制的环境。减少开发人员在实施安全、测试和监控功能等各种操作上花费的时间,使他们能够专注于改进交付服务并为开发人员和客户创造更好的体验。通过AIOps平台将自动化引入维修任务,可以大大降低生产阶段出错的可能性。这是所有服务提供商在其DevOps战略中所追求的目标模型。译者介绍邱凯,社区编辑,目前就职于北京中捷快递有限公司,担任信息安全工程师。主要负责公司信息安全规划与建设(保险类,ISO27001),主要日常工作内容为安全计划的制定与实施、内部安全审计与风险评估、管理等。原标题:HowMonitoringandAIOpsDeliverstheUltimateDevOpsPlatform,作者:PrashantJain
