简介全链路观测平台的设计离不开基础数据的采集、提炼和??呈现。本文梳理了基础数据日志、指标、链接的采集原则,总结了如何将它们关联起来,提供辅助决策价值。一、数据采集1、日志结构图统一日志:标准化日志格式,linkID透传,自定义搜索标识日志类型:应用日志,中间件日志(RPC框架,消息,缓存,存储等),网关日志,终端日志采集策略:例如基于IP、APP、文件等灵活管控,不同日志分类管理数据清洗:清洗重复不规范数据、重复数据、聚合优质数据存储数据:区分哪些数据适合ES,哪些数据适合ClickHouse,哪些数据适合时序数据库性能成本:延迟问题,查询性能,存储成本总结:通过标准化的日志格式和多样化的采集策略,清洗优质数据为根因定位提供基本保障。2.链路架构示意图采样策略固定采样率:保持固定的采样频率最小采样率:流量过低时保证最低采样率自适应采样率:根据流量自动适应采样率100%sampling染色采样:对染色和标记请求100%采样紧急采样:在请求传递过程中检测到错误或异常,强制对请求进行采样动态设置采样率采样策略动态调整自杀熔断保护,不允许过度占用资源业务概要:链接采集分析的重点是如何提供灵活的采样策略,实现核心链接和异常链接的高质量采集。2.数据关联1.横向关联横向关联:应用是通过调用关系关联上下游的一个维度,包括网关、缓存(Redis等)、消息(RocketMQ、Kafka等)、存储资源(MySQL)、Hbase、Mongo等)ES等)。Metrics:监控趋势,根据趋势变化告警,如Micrometer,Prometheus格式指标数据错误率变化链路(Tracing):微服务记录上下游服务调用和耗时,基于OpenTracing和OpenTelemetry规范,如Jaeger日志(Logging):日志收集,通过日志进行详细的问题追溯。摘要:通过跟踪连接指标和日志记录。当指标出现波动并触发告警时,可通过Logging错误日志,智能关联追溯查找根源,为业务提供辅助决策。2.垂直关联垂直关联:应用维度包括依赖容器、机器、CPU、带宽、磁盘、内存、消息资源(主题和消费者组、集群)、缓存资源、数据库资源(表和实例等)、搜索资源(索引等)索引关联一站式展示。3.辅助决策1.数据质量指标埋点覆盖链路采样策略多样化日志清洗提炼2.告警质量告警信息可以包含从指标到链路、日志的清晰关联和日志信息,提高决策能力3.分析能力沉淀问题分析的最佳实践库,并将其分析自动化,提升定位能力4.自愈能力基于分析能力,灵活配置自愈策略沉淀和自愈策略5.性能和稳定性采集延迟、计算能力、Query性能可视化观察平台自身稳定性建设6.可视化能力可以观察一站式丰富的图表和报表7.预测能力基于历史数据沉淀算法模型预测未来可能出现的问题
