关于可观察性,阿里云的思考与实践许多企业意识到可观察性已经成为云原生的基础设施和必备能力。那么,最近频繁被提及的可观察性与监控、APM等术语相比有什么区别呢?日前,阿里云资深技术专家周小凡受邀就可观察技术的演进等话题进行专访。:为什么是可观察性?是云原生时代的必然产物吗?周小凡:Observability并不是一个新名词,再次提到云原生时代是必然结果。云原生架构提倡的微服务和DevOps模式在带来效率和可用性提升的同时,也带来了复杂度的增加,增强可观察性成为降低复杂度的唯一手段。传统的监控方式只能做到被动发现问题,而可观察性不仅要发现问题,还要对问题现象背后的本质给出清晰的解释。可观测性背后的指标、日志、事件、链路数据、诊断工具的组合使用,为事前预防、事中处理和事后回顾提供了重要的决策依据。可观测性是基础设施自动化的基石,出色的可观测性是保证云原生红利高效释放的前提。业界经常有一种说法是“APM已死,而可观察性在这里”,但我不太同意。相反,我认为APM的产品形态在传统监控的基础上实现了“第一波进化”,首次实现了可观测性三大支柱(指标、链接)融合的最佳实践和日志)在应用层。云原生时代的可观察性,就是将APM产品中的一些经典技术和理念,升级、延伸、泛化到整个云的技术架构和组织中,促进更紧密的协作,覆盖更多的场景,发挥更大的价值。企业的数字化转型,使得业务的成败与IT基础设施的稳定性越来越密切,业务上线凸显了用户体验的重要性。与其历史一样,可观察性并不是一个新概念,它无处不在。云时代,随着分散在各处的可观察数据不断连接,从小问题定位发现、安全风险识别,到全局成本管理、稳定性治理乃至业务增长,都依赖于可观察技术,数据的可观察性成为衡量企业IT治理水平的重要指标。今天大家期望得到的“可观察产品”,其实大多是在上一代APM产品的基础上进行的“第二波进化”。他们需要具备存储和计算海量可观察数据的能力,以应用为中心,向上连接业务成败与用户体验,向下覆盖基础设施和云服务监控,满足IT稳定性之外的各种核心需求。1站。微服务下的可观察性挑战:微服务下构建可观察性能力有哪些难点?周小凡:作为重要的运维场景,随着系统架构、资源单元、资源获取方式、通信方式的演进,系统的可观测性和故障根因分析遇到了巨大的挑战。而这些挑战也在倒逼可观测相关技术的发展。下面以微服务为例:随着SpringCloud、Dubbo等常见微服务框架的广泛应用,微服务架构的接受度不断提高。核心云服务器ECS上云,以容器为核心的容器化云原生部署;为了更加敏捷,开始以应用为核心的微服务。CloudNative下微服务的可观察性主要面临三大挑战:发现难:从云服务器ECS到容器Kubernetes,微服务架构复杂度增加,观察对象复杂度增加,监测数据覆盖不全。定位难:随着各种治理能力的深入,可观察性要求高,服务框架复杂度增加,技术门槛提高,数据本身复杂度增加,数据关联性差。协作不力:随着组织角色的变化,可观察性不仅仅与操作有关。此外,还存在微服务配置混乱等一系列问题,难以梳理;微服务应用到Kubernetes后,线程池满了,找不到原因。因此,微服务的可观察性需要解决的问题是,客户端输入请求后,能够感知服务之间采集、传输、处理、存储的状态,进而预测、定位、解决系统运行过程中的故障问题。手术。这些问题,阿里巴巴在自建可观察系统的过程中也遇到过。阿里巴巴对可观察技术的探索:阿里巴巴开始构建可观察能力的内部诉求是什么?你经历了多少次重要的迭代?周小凡:作为最早进行云原生转型的互联网公司,阿里巴巴对可观察技术进行了长期的探索和实践,经历了以下几个阶段:第一代——一站式:脱胎于阿里巴巴的“鹰眼”产品应用实时监控服务ARMS诞生,为企业提供前端监控、云拨测等应用性能管理(APM)能力和数字体验(DEM)能力;第二代——连接应用:与应用托管和治理产品无缝集成,覆盖观察、安全、业务稳定等刚需场景。第三代——超越一站式:1+1+1>3,让阿里云无缝整合阿里云积累的可观察技术、开源可观察事实标准、客户存量和自研可观察数据资产,充分拥抱Prometheus、Grafana、Opentelemetry等开源标准,打造云原生时代完整的可观测数据生态和产品套件——阿里云可观测套件。第一代:ARMS,脱胎于阿里巴巴“鹰眼”产品的应用实时监控服务关键词:从单体到微服务,自下而上爆发式增长2013年,随着阿里巴巴业务的快速发展,应用从单体到微服务,微服务体系催生了去中心化的组织结构,导致自下而上的爆发式增长,并迅速向DevOps模式演进。工程师们正在以自助服务的方式从基础软件中寻找更多的答案。也正是从这个阶段开始,监控走向“可观察”的愿景开始形成。统一的PaaS层很快催生了统一的可观察基础设施,但微服务下的可观察能力建设在初期遇到了以下两个难点:指标基数的分歧,微服务的拆分过于细密,以及越来越精确的微服务。埋点。“每笔交易的可观察成本”急剧上升;三代探针技术和管控体系演进带来的可观测数据源质量,以及大规模探针控制和稳定性保障。关键词:商务中心背后的数字化运营,引领自上而下的稳定治理体系同时,随着商务中心的诞生,为了更好地应对季节性电商促销和多变的业态,产品如随着服务治理和混沌工程的诞生,碎片化的可观察性能力逐渐融合,引领自上而下的稳定性治理体系,构建以业务SLO为核心的稳定性治理体系。通过日志链接指标和诊断工具的整合,阿里巴巴内部APM产品的实用性得到了极大的提升,著名的“鹰眼”雏形初具雏形。观察能力与管控能力相结合:全链路灰度包括全链路、灰度、全链路压测、混沌工程等复杂治理手段,包括能力评估、依赖关系强弱评估微服务这样的分析场景完全集成到现有的可观察能力中。并且在这个阶段,以应用为中心,以管控一体化为中心,以领域知识积累为中心,让数据在一些封闭的场景中发挥最大价值。2017年,阿里巴巴将内部磨练多年的监控工具对外服务,正式商用实时监控服务ARMS。ARMS作为云原生综合可观测平台,提供全栈性能监控和端到端全链路跟踪诊断能力。同时,结合阿里云日志服务SLS的日志数据分析能力和云监控丰富的云服务和基础设施监控能力,用户可以轻松完成用户体验、应用服务、云产品、容器的一站式监控。第二代:与应用托管和治理产品无缝集成,覆盖观察、安全、业务稳定性等刚需场景。随着企业加快数字化转型步伐,IT系统更新频繁,应用复杂度急剧上升。微服务、容器化等技术也在传统企业逐渐兴起,云服务也成为企业大规模运营数字化业务的必备技术服务。以用户体验为核心的应用性能管理(ApplicationPerformanceManagement,APM)受到广泛关注,在帮助企业实现数字化转型和智能运维方面展现出巨大价值。体验为王的时代催生了向上覆盖业务连续性、向下覆盖基础设施稳定性的一体化可观察产品形态。为进一步提供更完备的产品能力,继2017年前端监控发布后,阿里云将于2021年推出云拨测产品,从用户端观察系统可用性,提供开箱即用box为云用户提供企业级被动和主动拨号应用监控解决方案,为用户体验优化提供坚实可靠的可观察分析工具。第三代:让阿里云积累的可观察技术、开源可观察事实标准、客户存量和自研可观察数据资产无缝集成云原生时代可观察需求的爆发式增长和基础设施的标准化,引领到可观察开源和商业项目的不断涌现,国内可观察市场心智的逐渐形成,Prometheus、Grafana、Opentelemetry等可观察标准的逐步形成。基于此,阿里云相继推出Prometheus监控服务、Grafana服务等可观察产品,并于6月推出阿里云可观察套件ACOS,进一步整合阿里云相关可观察产品和场景,帮助企业提供更丰富、更全面的服务。有了完整的可观察性,同事们可以大大节省搭建可观察系统的资源和运维成本。:使用阿里云可观察产品套件的具体落地场景有哪些?周小凡:得益于云原生开源生态的蓬勃发展,工程师们可以轻松搭建监控系统,比如使用Prometheus+Grafana搭建基础监控,或者使用SkyWalking或者Jaeger搭建跟踪系统,或者使用ELK或Loki来构建日志系统。随着可观察技术的蓬勃发展,目前面临的最大问题不是功能的缺失,而是数据的碎片化。对于运维团队来说,不同类型的可观察数据分散存储在不同的后端,故障排查仍然需要在多个系统之间跳转,效率无法得到保证。今天的客户不得不在商业可观察产品、开源自建和库存可观察资产之间做出艰难的选择。有两种方法可以解决这种分裂。一种方式是创建一个自主研发的一站式可观察产品来替代客户现有的解决方案。但历史实践告诉我们,一站式解决方案往往会形成另一个数据孤岛。因此,我们走了另一条路:向下,提供标准化的数据接口,整合阿里云上碎片化的可观察产品,实现可与客户股票对接的可观察数据资产;向上,提供可自由定制的产品接口,帮助客户形成自己独特的、1+1+1>3、非供应商锁定的可观察解决方案。阿里云的可观察套件,从可观察系统设计的角度,充分满足企业不同的观察场景:针对基础设施层的Prometheus监控服务,针对云服务器ECS、容器Kubernetes、VPC、消息队列等各种云服务的观察中间件.并快速对接各种云服务,快速扩容或缩容或负载均衡,更快解决问题。对于应用层,基于阿里云自研Java探针的应用监控完全满足应用监控需求。与开源工具相比,在数据质量、探针性能、分析能力等方面有了很大的提升。即使使用开源的SDK或探针,也可以通过Opentelemetry将数据上报给应用监控平台。对于用户体验层,通过移动端监控、前端监控、云拨号测试等模块,全面覆盖不同终端的用户体验和表现。统一告警和管理对各层收集的数据和告警信息进行统一告警和根因分析,通过Insight直接呈现发现结果。它还集成了钉钉、企业微信等协作平台,更高效地发现和跟踪问题。统一接口无论是实时监控服务ARMS,还是Prometheus监控的上报数据,还是日志服务、Elasticsearch、MongoDB等各种数据源,所有数据都可以通过完整的接口,以统一可观察的方式呈现托管Grafana服务,可以建立统一的监控仪表盘。阿里云对可观察领域的思考:与市场同类产品相比,阿里云可观察产品在原创性和差异化方面有哪些优势?周小凡:Gartner曾预测,2023年全球可观察性市场有望达到164.94亿美元。2024年,30%的企业将使用可观察性技术来提升数字业务运营绩效。热潮之下,无论是老牌厂商还是初创公司,都在可观测领域爆发出强大的产品能力。与市场同类产品相比,阿里云也有自己的思维和差异化优势。不同于众多第三方服务或开源自建方案,阿里云ObservableSuite实现多层次连接,全面打破数据孤岛,挖掘数据背后的商业价值。一、形成统一的观察接口兼容开源标准和实时应用监控服务ARMS应用层监控(APM)、前端体验监控(RUM)、基于eBPF技术的K8s监控、云监控等阿里云自有-开发可观察产品双向连接,以开放标准(PromQL)和统一开放接口(Grafana)的形式为用户提供可观察数据和分析能力,方便用户重新集成和二次加工。ARMS还全面支持OpenTelemetrySDK,增强自定义埋点。二、向下连接阿里云的可观察数据存储产品,统一可观察数据存储如日志服务SLS、Elasticsearch服务,以及分散在异构数据存储设施(如Clickhouse、Lindorm、RDS)中的可观察数据,实现之间的无缝探索可观察数据源管理和异构数据。三、横向连接阿里云所有应用管控产品和中间件产品阿里云所有应用管控(Serverless应用引擎SAE、容器服务ACK、函数计算FC、企业级分布式应用服务EDAS等)和中间件产品完全接受开源Observable标准,并与Observable套件接口。目前已经有超过50个阿里云服务通过Prometheus标准被观察到。四、全面拥抱开源阿里云作为国内可观测领域的领跑者,积极拥抱开源生态,提供兼容OpenTelemetry、Skywalking等主流开源协议的Prometheus监控服务、Grafana服务、链路跟踪服务,共同形成了新一代的阿里云Observable套件。利用标准化技术,向下连接存量和碎片化的可观察数据,向上帮助客户形成自己独特的无供应商锁定的可观察解决方案,实现真正的客户成功。第五,打造可观察的数据生态系统。自2017年与Elastic合作打造Elasticserach服务以来,阿里云先后与GrafanaLabs、博锐数据、协云、袋鼠云等企业达成战略合作,并与阿里云共同开发了自己的可观察系统。无缝对接,为阿里云海量客户带来引领行业的优秀产品和技术服务,提供更加丰富、优质、低门槛的可观察服务和能力。:能否结合具体用户案例,说明一下阿里云可观察产品的部署和实际效果?周小凡:以2022年北京冬奥会为例,这是历史上第一届核心系统全面上云的奥运会。依托阿里云政务云、公有云40余款产品和服务,冬奥会官方APP、新闻发布会系统、比赛计时记分系统、运动员点评等30余款应用系统已全部上传至云端。为对云上资源进行多维度采集观察,满足北京冬奥会期间现场值班人员提前预判云上资源整体运行风险,快速定位的需求并在出现故障时诊断问题。阿里云根据冬奥组委的业务特点,从三个层面选取观测指标:应用层监控服务每秒接收请求数、每个请求耗时、请求失败数、等应用层技术参数。基础资源监控云服务器ECSCPU使用率、内存使用率、磁盘空间、PODCPU使用率、内存使用率、磁盘空间、RDSCPU使用率、内存使用率、IOPS使用率、磁盘空间、RedisCPU使用率、内存使用率、CSG前端读取以及写入速度、共享缓存使用情况、用户模式空间使用情况、Trottling状态。网络层监控带宽、活跃连接数、限速丢包率、专线健康检查丢包率等核心网络参数。基于以上需求,冬奥组委选择了阿里云ObservableKit来搭建整个Observable系统。北京冬奥组委业务系统分为生产环境和测试环境,重点监控生产环境。在构建信息系统整体监控面板时,首先编写基于Tag的PromSQL语法,提取生产环境的资源;同时,考虑到ECS、RDS、Redis、SLB等资源数量众多,重点观察TOP10资源的使用情况,以更好地发现风险,提高服务可用性。同时,针对北京冬奥会运营期间的重要业务系统,评分系统、解说员解说系统等各个关键信息系统都构建了独立的Grafana监控仪表盘。重点监控SLB流量、QPS使用情况、HTTP请求返回状态码。由于冬奥会通信后台应用是基于Java的微服务架构,包含近千个KubernetesDeployment应用实例,为了更好的监控容器服务集群和运行在其上的应用,冬奥组委监控基于ARMS实时应用的Prometheus服务构建容器集群监控市场。在同一个大磁盘上查看多个数据源,包括集群事件日志、基于ebpf的非侵入式应用指标、网络指标等。冬奥组委采用大规模关联分析逻辑,从概览到细节,进行通过多数据源和多角度可观察能力进行不同维度的调查。基于阿里云ObservableKit,冬奥组委在最短的时间内迅速搭建了一套完整的Observable系统,覆盖了奥林匹克国际官网、奥运频道OCS、奥运频道等赛事场馆售票、新闻发布会系统。奥林匹克广播服务公司OBS,冬奥会官方APP,冬奥会官方APP,转播数据推送,自动媒体标签,国际实时信号转播,数据仓库,人员到发车ADS,网约车旅游RHP等众多业务场景保障北京冬奥会的顺利举办。除了通过全球项目测试,阿里云可观察产品矩阵以其完备的功能、良好的生态整合能力、卓越的成本优势获得了业界的认可。阿里云实时应用监控服务ARMS今年获得中国信息通信研究院先进可观测产品认证。阿里云连续两年进入GartnerAPM和Observable魔力象限,今年更是成为唯一入选的中国企业。在Forrester的容器和Serverless产品能力测评中,可观测性相关的产品能力评分也获得了满分认证。可观测性领域七大技术及应用趋势:未来可观测性是否有可能标准化?从监控到可观察,运维转型的整体趋势如何?周小凡:在可预见的未来,可观测领域会形成一定的标准化意识。各大厂商和开源项目都在推动标准的统一。首先是指标。Prometheus作为云原生时代的指标数据标准已经形成共识;链路标准随着OpenTracing和OpenTelemetry的实现逐渐成为主流;在采集、存储和分析端,涌现出Fluentd、Loki等开源新人;另一方面,Grafana作为展示可观察数据的标准已经越来越明确。然而,虽然标准统一了,但我们也要看到,基于统一标准的开源撕裂程度,比想象中的还要惨烈。同时,除了标准化之外,我们在可观察性领域看到七大可预测的技术和应用趋势:构建以应用为中心的观察视角:以应用为单位,关联指标、链接、日志。使用逐渐成熟的eBPF探针技术,快速实现全局应用可观察,非侵入式应用探针为主+OpenTelemetry为辅,实现代码级可观察。关注商业成败与用户体验:精准衡量用户体验,关联商业成败。前后端可观察数据打通,实现业务全链路问题快速定位。对接应用管控环节:与运维变更管控系统紧密对接,实现监-管-控一体化能力。融合安全治理和可观察性技术,全面降低IT风险。融合混沌工程、性能测试,规范化数据驱动的稳定性治理。打破部门壁垒,建立高效协同机制:构建SLO驱动的应急响应体系,引入ChatOps机制,实现去中心化协同。使用数据标签系统快速构建团队和个人可观察视图。标准化指标监测体系建设:围绕普罗米修斯生态构建新一代可观察基础设施,拥抱分布式云架构,构建全球指标监测体系。注重指标的质量而不是数量,持续管理监测体系的有效性。统一可观察接口:“统一你的数据,而不是你的数据库”,利用Grafana可视化系统实现异构存储的统一呈现。展望未来,阿里云相信“观察”将成为云计算时代每一位工程师的核心竞争力。阿里云上越来越多的云服务通过主流开源标准将自身的运行状态完全白盒化,更好的被云服务用户集成。工程师将逐步采用Monitoringascode的方式来实现可观察的左移。与过去相比,可观察性能力的构建将成为编写业务逻辑和实现运维自动化的关键环节。作为管理者,利用可观察技术辅助研发运维绩效管理和IT成本分析,将逐渐成为必备技能;同时,管理人员将逐步利用可观察到的数据,以数字化方式驱动团队成员之间的协作和沟通,并用于识别企业安全风险。在一切都基于云的时代,可观察性让云更容易使用。可观测性的巨大价值正在逐渐被实现。我们已经从监控转向可观察性,但我们并没有止步于观察。分析、洞察以及高质量的决策和业务创新是观察的最终目标。阿里云将继续在这一领域提供优质的产品和服务。嘉宾介绍了阿里云高级技术专家周小凡,目前在阿里云云原生应用平台工作,负责阿里巴巴集团APM系统鹰眼(EagleEye)和阿里云应用实时监控服务(ARMS)以及其他技术产品。拥有九年以上Observable相关领域实战经验,在分布式链路追踪、日志处理平台、监控告警系统的搭建与应用方面具有丰富的经验。其他技术相关经验包括微服务治理、分布式数据处理、应用PaaS等。栏目介绍《T前线》是内容中心专门为技术人物开设的深度访谈栏目之一。通过邀请技术领域的业务负责人、资深架构师、资深技术专家,共同探讨当前的技术热点、技术实践和技术趋势。进行深度解读和洞察,推动前沿技术的传播和发展。
