宜信研发总监张震：运维机器人任务决策系统的演进

时间：2023-03-15 00:07:03 科技观察

【.com原稿】2018年5月18-19日，由公司主办的全球软件与运维技术峰会在在北京举行。峰会围绕人工智能、大数据、物联网、区块链等12个核心热点，汇聚了60位海内外一线专家。平台。在“容器下的AIOps”分会场，宜信研发总监张震以《运维机器人之任务决策系统演进》为主题进行了精彩的演讲。演讲中，他分析了AIOps系统的目标和挑战，对运维机器人和任务决策系统进行了讲解，并对任务决策系统的演进进行了深入分析。AIOps本身的目标和挑战宜信是一家业务关系非常复杂的金融公司。图1是易信UAVStack（全维度监控软件）制作的状态监控图。图1UAVStack生成的状态监控图这张错综复杂的状态图描绘了易信生产环境中应用、数据库、服务、缓存等多个关联组件之间的调用和关系。面对如此复杂的业务规模，尤其是在微服务架构下，即使是一个非常简单的微服务，排查问题也不是一件容易的事。在这样的状态下，自动化运维不再是最佳选择，AIOps系统势必成为必然。AIOps系统可以通过深度洞察能力，为运维提供持续、优质、高效的运行。与自动化运维相比，将不再受制于人的生理和认知局限。在构建AIOps系统之前，你需要设定明确的目标，更重要的是，你需要应对各种挑战并分析透彻。三个目标目标一：时效类。虽然自动化运维大大提高了我们的时效性，但是核心的决策者还是人。当超过人体生理极限时，效率将难以保证，但AIOps系统不存在上述问题。目标2：深入洞察。人的认知是有局限性的，但AIOps系统可以利用大数据洞察更多存在的问题和未知的运维模式。目标3：自我调整。AIOps系统可以独立维护系统的最优状态，自动生成实现目标所需的执行计划。六大挑战理想离现实有多远？在构建AIOps系统的过程中要面临的挑战如下：1.如何获取高质量、高时效的监控数据。在传统的监控系统中，为了获取更多的数据，需要建立各种系统。这些系统在时效性和质量控制上达成一致是一个难题。2、如何实现多维数据的高效关联。单靠数据并不能解决任何问题，所有的数据都需要有机有效的联系起来。3、如何实现运维场景的实时感知。工程师之所以比传统的监控和运维系统更可靠，主要是因为运维工程师了解很多现实世界的认知能力，比如机房、网络、虚拟机等相关细节。如果想让AIOps系统做的更好，就需要增强它对运维场景的感知。第四，AI“工程”的复杂性。在实际过程中，在实际场景中实现机器学习算法的过程还有很长的路要走，这比在实验室进行机器学习要困难得多。5.机器学习模型的训练困境。生产运维中SLA（Service-LevelAgreement，服务水平协议）的矛盾和故障样本过少，导致模拟的局限性。6.遗留技术栈和混合架构的复杂性。初创公司会有大量的历史遗留技术栈和混合技术架构，遗留系统的“业务需求”变化频繁。那么，如何让它们很好的融入到AIOps体系中呢？在确定了目标，明确了挑战后，宜信制定了自己的AIOps技术路线，如图2所示。图2AIOps技术路线AIOps技术路线分为三个步骤：全维度监控、全维度关联、以及全维智能。在全维度监控阶段，需要统一监控体系，尽量获取高质量时效的监控数据，利用监控软件提取不同运维场景下的源数据，同时适配适应遗留技术堆栈和各种混合架构。在全维关联阶段，需要高效关联多维数据，同时解决机器学习模型的训练困境。在全维智能阶段，AI工程复杂性的突破需要时间。运维机器人是AIOps系统的核心。在确定了AIOps的技术路线后，宜信首先实现了权威的监控平台——“运维机器人”。运维机器人也称为AI-Mission-Robot（任务机器人），如图3所示。图3运维机器人任务机器人的设计理念是基于CUI的交互，基于API的执行，结合微智能、人工智能等前沿技术，让运维机器人实现真正的决策，最终贡献给运维人员反馈。任务机器人之所以是AIOps系统的核心，是因为它在全方位关联和全方位智能中发挥着关键作用，如图4所示。图4.任务机器人是核心任务机器人。任务机器人的作用是对接全维度监控平台和大数据平台，也面向DevOps工具链和业务系统。任务决策系统的六大职责解析在介绍了任务机器人的基本概况后，张震分析了任务决策系统以及任务机器人的职责。什么是任务决策系统张震表示，理解认知与决策的关系是理解任务决策系统的前提，如图5所示。图5认知与决策的关系认知智能理解、解释、规划、推理四个部分与决策密切相关，映射到智能运维场景，对应图中所示的四点从图5中我们可以看出，任务决策的前提是增强现实感知。图6增强现实感知过程图6是增强现实感知过程。这样就实现了对用户场景的感知。在这个过程中，人工智能提供了很多决策能力，比如利用机器学习技术进行分类判断和回归检测，构建知识图谱和系统来加深对事物的认知，搜索技术实现模糊和精准匹配.任务驱动模式和自主驱动模式是任务机器人的两种驱动模式：任务驱动模式是被动任务。接收到下发的指令并理解指令的意图后，与任务执行方法同时进行任务决策，最终执行任务并反馈结果。自动驾驶模式是主动接受指挥官的期望，在理解意图后，制定任务实施方案主动执行任务，并按需反馈结果。任务决策系统六大职责为了支持任务驱动模式和自主驾驶模式两种驱动模式，任务决策系统需要具备六大职责，如图7所示。图7任务六大职责决策体系接下来，张震详细讲解了各个职责的基本工作原理。职责一：意图理解图8意图理解的工作原理如图8所示。意图理解首先进行自然语言理解，然后将自然语言映射成机器人可以理解的语素，然后进入意图路由。意图路由的作用是理解人的指令，基本上可以分为四种：人与机器人之间的多轮对话。人们给出直接指令（ChatOps指令）。判断是否需要进入命令理解过程。指令理解就是将偏向于自然语言的语素翻译成偏向于机器人理解的语素。延伸意图，在这个过程中，需要用到图计算技术。图计算包括算法、全图构建和查询过程三部分。职责二：系统理解图9系统理解的工作原理如图9所示。系统理解从构建知识图谱开始，分为API语义和细粒度画像两部分。然后再结合指令理解的结果，进行一个图计算的过程，带来两个作用：一是帮助选择要使用的API，二是填写参数。职责三：现实理解图10现实理解的工作原理如图10所示。现实理解还需要做一个知识图谱，需要收集基础、关联、业务画像等多维数据。之后通过图计算的方式解决什么类型和关联类型这两个需求。最后，在前期工作的基础上，协助进行问题定位、根源分析和现实判断。职责四：异常检测图11异常检测工作原理异常检测工作原理如图11所示，将全维指标（即全维监控阶段得到的数据）转化为指标关联model，这涉及高效计算和高Accuracy是为两个模型计算的。首先使用高效计算模型进行计算，大致得出一个结论，然后交给高精度模型实现。职责五：问题分析图12问题分析工作原理如图12所示，就是问题分析的工作原理。当有异常检测结果或异常特征图（数学空间中的一组模型）输入时，加入现实理解，通过图12所示的计算和三大辅助分析能力，一系列相关的认知需求，问题定位，最终得到相关的根本原因和影响评估。职责六：执行计划图13执行计划的工作原理如图13所示，是执行计划的工作原理，主要分为预设计划、现实理解和系统理解三个层次。执行计划功能是对前面五个功能的理解和整合，是自动驾驶模型中最重要的一点。有了这样一个执行计划，很多执行计划就可以相互嵌套。当嵌套达到一定的复杂程度时，就可以形成一个非常复杂的工作流程。这个工作过程就是任务机器人逐渐接近人类。渐进智能的过程。任务决策系统的具体演化接下来，张震通过一些案例分析了任务决策系统的具体演化过程。任务决策系统是AIOps平台架构的一部分，如图14所示。图14AIOps平台框架AIOps平台框架底层是微服务计算平台。基于该平台，构建了全方位的监控服务和任务机器人系统。任务机器人系统包括Interaction、Think和Handson三个部分，任务决策服务是Think的板块之一。任务驱动架构的四次迭代在第一代任务驱动架构中，命令的理解和参数的填充都是在代码层实现的，包括任务的确定和关系的全维度监控，也是通过服务注册发现来完成的.第二代任务驱动架构不仅增加了自然语言和指令理解，初步引入了知识图谱，还实现了基于语义模板的回复。第三代任务驱动架构，在构建微智能知识图谱的同时，加入了多轮对话的管理，基本上可以清楚判断人的意图，可以对整个报警进行简单的统计。图15第四代任务驱动架构如图15所示，第四代架构丰富了很多功能，比如支持扩展意图连接的多轮对话、知识图谱管理服务、引入问题分析等。自动驾驶架构的两次迭代比较了报警后处理的任务驱动模式。无人驾驶模式让运维由被动变为主动。自动驾驶是易信做的智能巡检场景，相当于运维工程师定期巡检系统的效果。智能巡检异常检测、问题定位、根因分析、影响评估、自愈方案是智能巡检场景的五个步骤。实现智能检测有两个基本过程：记忆期望和主动执行。自动驾驶（第一代）过程1：记住期望图16自动驾驶过程1：记住期望如图16所示，任务机器人首先要记住我们的某个期望，并在了解业务的前提下频繁执行。判断我们给出的期望与其中一个计划一致，并存储结果，这个过程存储的是预设计划的结果，而不是真正的执行计划。实际执行时，可以根据上下文生成具体的工作清单。自动驾驶（第一代）过程2：主动实现图17自动驾驶过程2：主动实现如图17所示，机器人在实际执行时，遵循执行计划的工作原理，根据图自动生成执行计划计算。同时，执行计划为知识图谱调度API调用以了解现实。通过模型计算对调度进行异常检测。这一代专注于单一指标，不涉及问题分析。自动驾驶（二代）图18自动驾驶（二代）架构图如图18所示，自动驾驶（二代）增加问题分析结果的引导，实现结果的主动反馈，并向专业人士求助实时。在指标关联模型的异常检测方面，增加了问题定位和根因分析的过程，并在预警服务部分引入了事件关联。任务决策系统的未来任务决策系统的未来将进一步克服以下几个方面：准确性需要不断提高。评估问题诊断结果的影响（系统/应用/业务层面），从而确定自愈实施的手段。增强人机互助，在系统寻求人工协助的基础上实现双向协同支持。ChatOps命令意图理解是完全自动化的，即部署即理解。引入一些半自动的辅助手段，帮助预案建模，降低预案建模的复杂度。目前还是一种针对特定场景的建模方法，通用性不足。高指数关联模型的通用性有待提高。演讲最后，张震总结演讲：应对AIOps自身挑战的技术路线是从全维监控到全维关联，最后到全维智能。任务机器人是AIOps系统的核心，基于它可以实现全维关联、全维智能。任务决策是认知智能与人工智能技术相结合的体现，包括六大基本功能：系统理解、现实理解、意图理解、异常检测、问题分析和执行计划。任务机器人有两种驾驶模式：任务模式和自主模式。任务驱动的关键是将人的意图映射到系统的可执行操作中。自动驾驶的关键是生成执行计划并影响执行效果。【原创稿件，合作网站转载请注明原作者和出处为.com】

上一篇：DBA+开源工具：面向开发的MongoDB图形化可视化监控

下一篇：在人工智能热潮下，董事会和首席执行官必须能够充分理解人工智能

宜信研发总监张震：运维机器人任务决策系统的演进相关文章