AIOps(ArtificialIntelligenceforITOperations),是人工智能能力与运维的结合,通过机器学习提高运维效率。在传统的自动化运维系统中,有效解决了重复运维工作的人力成本和效率问题。然而,在复杂场景下的故障排查、变更管理、容量管理、服务资源等过程中,仍然需要人来控制决策过程,这阻碍了运维效率的进一步提升。人工智能方法的引入,使机器能够代替人类进行决策,从而使实现真正意义上的完全自动化成为可能。在百度AIOps的实施过程中,最关键的因素是人,也就是AIOps的建设者。AIOps作为一个全新的技术开发和应用方向,并不是仅仅具备一定的技能或招募一两个大牌人才就可以完成的。它需要不同角色和多个团队的合作才能实现。根据近年来业界对AIOps的理解和实践,AIOps涉及的角色分工越来越清晰。在百度4年的AIOps实践中,我们总结出以下四个不可或缺的角色:运维工程师运维研发工程师平台研发工程师运维AI工程师可以看到,除了运维AI工程师,其他角色在AIOps之后并没有出现在应运而生的同时,它们也在传统运维中发挥了重要作用。今天我们主要想和大家探讨一下,在AIOps时代,他们的职责发生了哪些变化。为了方便大家的理解,下面结合百度云智能运维的实际案例进行具体讲解。单机房故障自愈场景单机房故障自愈是典型的百度AIOps落地项目。解决方案主要解决以下问题场景:某业务因网络、设备、变更、程序bug、容量等原因出现故障,但故障范围仅限于单个机房或单个Region.然后基于流量调度等手段,将访问流量调度到非故障机房或Region,实现该类故障的自动止损。整个故障自愈过程分为以下几个阶段:在这个过程中,AIOps的四个角色需要分工明确,密切配合,共同完成整个AIOps解决方案的实施。在单机房故障自愈场景中,四种角色的关系如下图所示:运维工程师在单机房故障自愈项目中,运维工程师根据积累的经验在日常运维中的场景和问题中,通过定义单机房的问题域、解决思路和风险点,确定单机房故障止损为主要需求和突破口,明确AI可以发力的领域机房故障止损。运维工程师的职责主要包括以下几个方面:完成问题域定义后,运维工程师需要跟踪整个单机房故障自愈方案的执行情况,包括提供数据标注支持前期策略设计,中期落地效果验收单机房故障自愈方案,后期在生产环境实际部署运行。AIOps时代的职责与技能变革运维工程师对在线服务质量负责,是服务质量的关键保障。在工作过程中,会与研发、产品、运营等各个角色和团队进行深入的沟通和协作。在传统运维中,运维工程师的主要职责分为质量、成本、效率三个方面。主要包括以下工作内容:在AIOps的实施中,运维工程师是核心角色,同时也被赋予了新的职责。他们是AIOps具体实现的需求提出者和结果接受者。具体职责包括:在AIOps时代,一方面,运维工程师需要熟悉运维领域的知识,了解运维存在的问题和解决方案;另一方面,他们需要理解人工智能和机器学习的思想,能够理解哪些场景适合用什么样的样本和数据来解决机器学习的方法,即成为一个运维领域AI落地解决方案专家。运维AI工程师在单机房故障自愈场景下,运维AI工程师将机器学习算法与实际故障处理业务场景相结合,针对单机房故障自愈场景进行策略研发和实验工作。机房故障场景。如下图所示:运维AI工程师设计了以下算法策略来满足整个复杂故障场景的自动决策:异常检测算法:解决发现故障时指标的异常判断问题,并基于AI方法实现高准确率和召回率,作为整个故障自愈的数据基础。策略安排算法:根据当前线上实际流量和服务状态,设计盈亏计算模型,确定基于哪些操作组合或步骤,可以使收益最大化,风险最小化,整个自动止损。流量调度算法:根据在线服务能力和实时流量情况,进行精准流量配比计算,防范容量不足或不精准风险,实现流量调度收益最大化。策略设计开发完成后,需要根据历史数据进行案例回溯,模拟案例模拟验证策略效果,并逐步迭代优化,满足线上运行的准确率和召回率要求。AIOps时代的职责和技能变革运维AI工程师是将AI引入运维的核心角色。他们了解和梳理运维数据和运维经验,利用机器学习的方法对海量运维数据进行归纳和归纳,让数据的价值得以展现。运维AI工程师首先需要具备AI工程师的技能,需要对数学和机器学习方法有足够的掌握,并能够在实践中应用。AI工程师技能表如下图所示:如单机房自愈场景所述,运维AI工程师需要具备机器学习知识以及在运维中落地的能力维修领域。运维AI工程师职责如下:平台研发工程师在单机房故障自愈场景下,平台研发工程师需要关注三类平台的建设。如图:基础运维平台:在单机房故障自愈场景下提供依赖平台,如:监控平台、流量调度平台。在日常运维中,为规范的运维数据采集和运维操作提供依据。在AIOps中,这部分接口需要能够同时支持手动和自动的数据采集和运维操作。智能运维平台:为AI能力提供支持,如:统一的数据服务(运维知识库)、运维开发框架、AI策略实验和运维的运维策略框架等。故障自检康复机器人:对单一业务场景进行平台化抽象,使其成为基础服务,基于AIOps平台开发和运营。AIOps时代的职责和技能变化平台研发工程师负责运维平台和基础组件的研发和建设。在传统的运维场景中,平台研发工程师负责平台、基础组件、类库和工具的研发。在运维场景中,会涵盖服务管理、监控、变更、流量调度等与运维相关的平台。平台这部分是运维的基础,在AIOps时代,还是需要依赖这些平台的建设。同时,在AIOps场景中,数据成为中心,将运维的各种状态信息转化为大数据,将机器学习应用于大数据进行分析。在百度AIOps的实践中,运维开发框架、运维知识库、运维策略框架共同构成了一个完整的智能运维平台。三大平台的建设和落地,都离不开大数据和机器学习架构的引入。这就需要平台研发工程师具备大数据和机器学习平台架构师的多重身份,具备流计算、分布式存储、机器学习平台、算法策略平台等一系列大数据和机器学习平台架构能力。运维研发工程师基于多条业务线场景抽象出来的单机房故障自愈方案,可以满足大部分场景的需求,但不代表可以直接提供给各条业务线使用。原因如下:流量调度、容灾策略等策略需要调整策略和参数,不同业务线配置不同。比如有些业务对响应时间敏感,跨地域调度会带来较大的延迟,影响用户体验。这种情况下,需要根据业务情况配置机房间跨机房流量调度延迟系数,实现流量优先级调度。延迟系数最低的机房。通用框架不能满足所有要求。部分业务线需要对原有策略进行部分改写以满足需求。例如,一些业务在流量调度时需要协调服务降级以满足容量需求,这就需要增加服务降级联动的逻辑。那么就需要运维研发工程师来解决这个问题。根据业务线实际情况,配置优化策略和参数,针对通用框架无法满足的需求进行定制化研发,使单机房故障自愈方案真正落地应用到不同的业务线。AIOps时代的职责与技能变革运维研发工程师根据业务线的特点,负责运维研发。在传统运维中,他们是运维自动化的实施者,针对业务场景实现自动化运维的实现。他们的职责是:在AIOps时代,运维研发工程师承担着在业务线实施AIOps智能运维解决方案的责任。他们是AIOps场景的践行者,将AIOps解决方案与业务架构特性相结合,实现AIOps在业务线的落地。一方面,他们会与运维工程师紧密合作,深入分析业务问题,了解业务特点。另一方面,他们与平台研发工程师、AI工程师合作,基于AIOps方案的策略和框架进行定制化开发,使其适合自身业务线的特点。总结本文介绍了运维工程师、运维AI工程师、平台研发工程师、运维研发工程师从自动化运维时代到AIOps智能运维时代的四种角色,以及扩展以及他们职责和技能的变化。AIOps技术为运维技术的发展带来了更多的机遇,对于每一个参与AIOps实施的个人或团队来说也是如此。四个角色不仅具备技术专长,还紧密合作,将AI能力引入运维赋能。那么,您有哪些选择?
