当前位置: 首页 > 科技观察

如何简化云原生运维_1

时间:2023-03-15 23:55:23 科技观察

云计算在带来集约化、高效化、灵活性和业务敏捷性的同时,也给云运维带来了前所未有的挑战。如何面对新技术趋势的挑战,构建云时代的智能监控平台,更好地保护云应用,是当今每个企业面临的难题。日前的【T说】系列活动第八期,51CTO内容中心特邀程云产品副总裁张怀鹏做客直播间,与大家分享创作的心得与思考云时代的数字化观测工具。【TTalk】也整理了本期精彩内容,希望大家有所收获:数字化转型和数字经济建设是当今时代的大趋势,数字化转型可以说是第四次工业革命人类历史。我们日常的工作方式、支付方式、购物方式,包括出行方式等等,无时无刻不在受到数字化的影响。简单来说,我们已经从传统的IT时代进入了数字DT时代。在数字DT时代,数字化转型几乎重新定义了当前的企业业务和业务体验。然而,随着各行业数字化转型的不断深入,越来越多的数字化应用事故也逐渐浮出水面。比如年初某省市健康码崩盘,核酸检测系统异常等,都给社会造成了很大的影响。调查显示,目前有60%的CEO认为数字化转型非常重要,企业也在这群人的带领下大步迈向数字化转型和人工智能进化。然而,与此形成鲜明对比的是,95%的企业应用并没有得到有效的监控和关注。当前的数字化运营方式大多产生于传统数据中心时代,大量工具或技术并未考虑云计算场景。随着云计算的普及,信息化场景发生了翻天覆地的变化。应用本身的复杂度呈爆发式增长,越来越分布式,依赖越来越复杂,软件迭代的节奏越来越快。在这样的场景下,企业迫切需要构建一套面向DT时代的基于业务流和数据流的解决方案。DT时代产生了太多的新技术和新场景,比如目前很火的云原生。云原生化的需求加速了传统运维向应用运维的演进。传统场景有大量的基础设施,但随着业务上云,基础设施将由运营商或运营商托管。企业不再需要为传统的机房管理、弱电管理、硬件监控、裸机监控、UPS配电等提供服务。电力和温湿度的烦恼。因此,传统的设备运维也演变为以应用为中心的站点可靠性运维,企业在传统运维上的投入会越来越少。目前,我们正处于向智能运维转型的阶段。现在要做的是让数字运维、IT运维更轻、效率更快、成本更低。运维团队的精力需要集中在企业业务本身,而业务是运维人员需要关注的重点。这些都会带来智能运维的需求。企业通向智能运维的典型技术路径一、什么是智能运维关于智能运维,Forrester和Gartner在报告中定义:AIOps是将AI和数据科学应用于业务的一组数据以及操作和维护领域,以关联并使软件系统能够实时提供规范性和预测性的答案。AIOps可以是软件系统,所以可以是落地产品。AIOps可以增强和部分替代传统IT运维的主要功能,包括可用性和性能监控、事件关联和分析、IT服务管理和自动化。AIOps是面向Operations的,Operations需要涵盖观察、管理、处置三个方面。但目前,行业整体水平更侧重于观察层面。Forrester对此也给出了经典的说法:AIOpspromisesstrongerobservabilityandstability。Forrester认为,当前AIOps的核心价值之一是增强先验能力,增强和扩展你的可观察能力。2.什么是可观察性可观察性最早诞生于控制论,指的是一个系统能从外部输出推断出其内部状态的程度。在IT领域,Gartner将可观察性定义为软件和系统的一个特征。具体来说,是指根据系统产生的遥测数据,判断当前系统状态和系统情况的能力。这种能力称为可观察性或可观察性。为什么需要可观察性?传统的监控技术和工具很难跟踪越来越多的分布式架构中的通信路径和依赖关系。在云原生或者基于云的场景下,依赖非常复杂,不再像很多传统的监控方式。这同样适用于单体应用程序。可观察性可以更好地控制复杂系统。通过可观察性的三大数据支柱,我们可以非常直观和详细地了解复杂系统的方方面面。可观察性不仅服务于运维,还可以服务于开发部门、SRE部门、支持部门、市场部门和业务部门。所以,如果能够将AIOps和observability结合起来,打造一个一体化的平台,就会得到一个非常完美的产品,一石二鸟。3、企业通往智能运维AIOps的两条典型技术路径企业通往IT智能运维的两条典型技术路径可以形象地概括为“外部AIOps”和“内生AIOps”。Plug-inAIOps,通过绕过的方式将AIOps平台植入到企业IT运维环境中。AIOps是一个独立的算法平台。数据工程师通过接入企业异构、异构的数据,梳理数据之间的依赖关系,利用大数据处理技术实现项目化交付。内生AIOps强调的是综合技术路线。通过内生的AIOps引擎,可以实现整个数据处理过程的闭环,无需数据工程师的参与。与快递流程类似,寄件人的物品等同于数据。快递员收到数据后,进行包装、仓储、派送、运输等操作。但最终收件人收到的是这个物品,中间所有的处理环节都不需要发件人和收件人来处理。EndogenousAIOps强调这种能力,将AI能力嵌入到集成观察平台中。技术实现上的差异:Plug-inAIOps一般使用传统的机器学习AI。该技术本质上是一种统计方法,可以关联和分析指标、日志、事件和其他信息以减少警报的噪音。借助机器学习人工智能,我们能够获得一组相关的警报。因此,需要一定的时间。一般来说,插件式AIOps需要人工或历史记录来提出建议的或可能的根本原因。同时,外挂式AIOps需要大量的外部数据依赖,而外挂式AIOps厂商通常只做算法平台。数据清洗、CMDB实体间的依赖关系等都需要外部数据。因此,如果要实现插件化的AIOps,需要企业内部有非常成熟的信息化运维体系。需要有调用数据、APM产品、相对完善的可观察性的前提,才能做插件化的AIOps。EndogenousAIOps提供了一种确定性的AI分析,以确定性的分析结果为目标,即问题发生后,问题的根源是确定性的,接近实时的结果。内生AIOps维护着一个非常实时的矩阵依赖图。该技术不需要依赖传统的静态CMDB,但是这个依赖图本身就相当于一个实时的CMDB,可以集成依赖关系实时变化,借助内生关系实现管理分析。企业如何决定选择适合自己的技术路径?在AIOps的实施层面,企业需要考虑的问题很多。从业务管理者的角度来看,除了成本和团队等基本问题外,还需要考虑不同部门之间的平衡,以及成本、稳定性和效率之间的平衡。AIOps的目标不仅是解决问题,更重要的是合理解决问题。在保证成本的同时,最大化企业业务的稳定性和效率。Forrester报告中提到,企业在实施AIOps时,需要考虑以下关键能力:AIOps平台能否与ITOM工具链无缝集成,能否实现高度自动化.AIOps平台非常重视原始数据,Native数据包括云原生依赖、云原生机器数据信息、全业务依赖、地图自动化、全景构建等。AIOps的未来是智能观察、感知和自动执行根本原因分析和事件补救计划。自动化程度现代技术操作需要智能和自动化。从数据处理过程来看,两种技术路径的区别:传统的AIOps平台,即外挂式AIOps平台,在数据处理过程中会使用很多工具进行拼接拼接,打造一个摇摇晃晃的Akira's大数据系统。如果发生人员流失,很可能新的交接会留下大量的技术债。在数据收集的第一步,我们需要依赖大量的开源和商业工具。第二步,将数据注入大数据平台。第三步,人工梳理数据关系,清洗数据。前三个步骤非常耗时。第四步,发现问题,定位问题。只有这一步,AIOps厂商才会参与。制造商的团队需要登陆客户的站点以按需构建。厂商会询问需求并提供相应的服务。第五,构建仪表板。第六,系统的扩展性,随着应用系统规模的扩大,整个系统呈线性增长。在整个过程中,数据工程师需要将近80%的时间花在数据清洗、收集和整理上。整个解决方案需要最前沿的运维人才,不仅是运维专家,还需要懂算法,懂开发。AIOps本身是一个支撑系统,用来解决问题,但是插件化的AIOps很可能会让运维变得更重,需要有专门的团队来维护AIOps平台本身。内生AIOps的数据处理过程非常简单,一个工具就可以解决数据采集。并且由于是商业化程度很高的产品,具有开箱即用的dashboard能力,包括engines等,所以后续的处理流程都是黑盒子,企业不需要太在意,也不用关心是不是需要业务工程师懂算法,有SRE的技术水平。同时,内生的AIOps会随着企业业务系统的扩张非线性增长。整个系统,包括用户的团队和产品,都是非线性增长的。整个解决方案部署完成后,企业只需要安装一个Agent,后续的很多能力都会自动化。这使得企业的运维人员可以专注于企业自身的业务。总结:行业需要能够全面覆盖数据处理全流程的新一代软件智能平台。与其呈现原始数据,不如直接交付客户想要的结果。总的来说,在外挂AIOps和内生AIOps这两条技术路径中,推荐企业使用内生AIOps,属于智能运维新范式。内生AIOps帮助云原生运维化繁为简。内生AIOps平台的目标是构建一个集成AIOps和可观察性的综合平台。它需要有观察能力,观察能力必须以应用监控为中心,也就是面向终端用户的现象层。同时需要整合基础设施监控,包括云平台监控和黑盒监控。最后,还需要具备面向前端数字化体验的能力。新的AIOps平台需要打造持续的自动化,从数据接入到数据输出实现自动化。要有超前的能力,要有预知预警的能力。新的AIOps平台需要提供高水平的可观察性,不仅仅是把原始数据和原始部分展示给企业,而是关注现象,关注体验,给出准确的结果,减少海量噪声对企业的影响和干扰尽可能大。内生AIOps的数据处理模型有很多差异,比如强调Agent收集数据的能力。在数据处理方面,我们强调指标体系。指标体系的构建不同于传统的方法。我们强调内生AIOps是集成平台内生的。内生AIOps平台将从以下五个方面助力简化云原生运维:内生AIOps平台可直接获取优质观测数据,打造持续自动化能力。对于运维,工作效率会更高高层平台可以构建实时矩阵拓扑。根据地图实时输出影响面分析,直指根源,见证结果。一、直接获取高质量的观测数据首先,直接获取高质量的监测数据。一个比较经典的总结是“高质量的观测来自高质量的遥测”,高质量的后端分析必然需要高质量的前端遥测数据的产生。可观察性侧重于三个支柱。如果你想做高层次的可观察性和内生的AIOps分析,你需要五个支柱。除了传统的跟踪数据、指标、日志数据,你还需要非常关键的拓扑数据和代码数据。数据的好坏可以直接决定模型的上限。要直接获取高质量的监控数据,必须在不修改源代码、不修改业务、不修改应用程序的情况下,以非侵入式的方式自动采集这些数据,并且能够实现上下文信息化与自动化的结合。上下文信息可以辅助真正的根因分析,可以帮助根因分析提取高保真的背景信息,可以帮助平台实时构建服务流图和拓扑图,识别依赖关系。包括矩阵式关系拓扑技术,这些上下文信息也非常关键。拓扑图主要展示了整个应用环境的依赖关系,包括垂直栈和水平栈。服务流程图从服务或请求的维度提供了整个事务的视图。服务流程图和拓扑图可以说明服务之间的调用顺序。服务流图展示了交易整个分布的顺序,是有序的,而拓扑图是更高层次的抽象,展示了依赖关系等。直接获取高质量的监控关系需要使用商业代理技术。虽然市面上有很多开源工具或免费工具,但商业代理技术具有以下开源工具所不具备的优势。保证采集到的代理探针的稳定性、安全性和可靠性。探针保证了对主机、资源开销和核心业务性能的影响。Deployment和Instrumentation,包括变更,可以使用较少的人工操作监控能力自动植入到这些组件中的动态方法或容器类,各种指标精细采样,原生高保真有足够的信息和上下文构建统一的数据模型。以上优点是很多免费工具所没有的。内生的AIOps平台依赖于OneAgent技术。Agent采用边缘计算设计,在边缘和端点做大量的数据聚合和数据清洗。2、创造持续自动化能力的内生AIOps平台,旨在构建持续自动化。必须自动监控复杂的云原生环境。包括自动化部署、自动化适配、自动化发现、监控、注入、清洗等一系列自动化。在复杂的云原生环境中,人力资源很难理解这些端到端的服务,因此需要借助高度自动化的能力作为辅助工具,辅助自动化运维。3.构建实时矩阵关系图内生AIOps平台可以构建实时矩阵拓扑。大家可以顺着图看,图中横向是看服务层的依赖关系图,还有容器层、宿主层、进程层等,纵向是服务运行在什么容器上,这个容器对应哪个进程,这个进程落在哪个云主机上。4、实时输出影响分析输出影响分析相当于网络安全的思想,在运维上也是一样的。如果系统出现故障或异常,受影响的区域有哪些,哪些用户会受到影响,哪些服务会受到影响,哪些应用程序会受到影响,根本原因是什么。通过自动化的手段和技术,将结果输出给用户,无需运维人员人工分析。5、直指根源,见证结果最后,自动化运维非常重要的能力,就是直指根源,见证结果。传统技术需要基于知识库、CMDB、因果推理的不同方法,而AIOps提供内生根因定位。它可以突破数据依赖。除了对象之间的依赖关系,它还可以突破不同数据类型之间的依赖关系,比如调用链、日志、指标之间的依赖关系。它提供的是一种具有高适应性、低开销和高精度的实时根本原因定位。并且借助无监督技术,不需要过多的人工协助即可实现这些功能的交付。结语企业要想在数字化转型中取得成功,就需要确保支撑其运营的所有应用程序、数字化服务、动态多云平台都能完美运行,而且每时每刻都必须做到这一点。这些高度动态和分布式的云原生技术与传统场景完全不同。这导致微服务、容器和软件定义的云基础设施带来的复杂性在今天已经失控。这些复杂性超出了团队管理能力的极限,并在不断扩大。为了及时了解这些瞬息万变的环境中正在发生的事情,需要提高可观察性和智能运维能力。我们需要通过高度自动化、智能化的技术,让云原生运维更轻、更高效、成本更低,让企业团队的精力需要集中在业务本身,真正走向智能化运营。次元时代。嘉宾介绍了诚云产品副总裁张怀鹏。2017年加入杭州诚云数字科技有限公司,负责【DataBuff一体化观测与智能运维】产品线日常管理,担任IPD一体化产品开发团队经理,参与市场管理,需求分析、团队协作、流程构建、质量控制等。