01日志服务面临的挑战随着中美摩擦的升级和中国开源文化的兴起,各大互联网公司和各行业龙头企业纷纷涌入转向了开源、安全、自主可控的发展路线。基于开源引擎Kafka/ElasticSearch,构建日志基础设施的基本架构共识:日志采集能力:服务端、客户端、Web、数据库日志采集工作;日志ETL能力:实时日志ETL、ETL链路监控、ETL链路质量测量;日志检索能力:全文搜索能力、日志上下文还原能力;日志分析能力:Adhoc日志OLAP能力。随着日志流量和日志任务的不断增加,“日志时效性、运维友好性、服务稳定性、数据安全性”等问题变得非常棘手,例如:1)日志采集阶段面临的挑战需要支持物理机,针对虚拟机和容器化场景,按服务粒度收集日志;支持弹性动态伸缩;需要支持海量、几十万个Agent监控、运维、多版本管理;需要支持共享的多租户分层保障模型;需要针对特定??任务级别提供丰富的指标、故障排除和自我修复能力。2)日志ETL阶段面临的挑战ETL语义表达要简单、清晰、可操作,同时与底层基础设施解耦,对SQL表达有强烈需求;ETL环节涉及多个环节,各有自己的指标体系和口径不统一,问题定位和排查成本高;ETL链路涉及日志存储和计算,Quota端到端的弹性伸缩能力充满技术挑战。3)日志存储面临的挑战Kafka磁盘IO热点导致的集群生产和消费雪崩;主题资源隔离性差,流量突增,回溯消费,影响集群稳定性;Kafka有大量集群和topic操作,需要平台承接社区Kafka-Manager能力缺失。4)日志检索面临的挑战ElasticSearch受制于元信息的瓶颈,集群分片数量不能超过几十万,需要解决扩展性问题;ElasticSearch集群资源缺乏多租户和查询隔离系统是稳定性的最大杀手;ElasticSearch端到端立体监控体系缺失,运维支撑能力不足,运维友好性问题亟待解决。5)日志分析面临的挑战亿级明细数据的Adhoc查询分析能力;支持亿级基数列的高精度去重场景能力;缺乏端到端的三维监控体系,运维支撑能力不足,运维友好性问题亟待解决。02滴滴Logi日志服务套件伴随着企业数字化转型、业务全面上云的进程,以及微服务、容器化等技术的快速发展,业务对稳健易用提出了三大迫切需求——使用日志基础设施:服务保障要求:全链路跟踪是稳定性保障的重要工具;业务运营需求:A/BTEST、事件运营分析、终端用户行为分析、精准营销、百MB/S日志秒级存储能力、TB级日志秒级搜索能力强烈呼吁;业务安全需求:识别攻击源杜绝资产流失、安全审计溯源、TB级日志Adhoc分析能力。滴滴Logi日志服务套件在滴滴内部经历了7年多的沉淀和打磨。在日志采集、日志存储、日志计算、日志检索、日志分析等方面,在组件能力、引擎稳定性和扩展性方面均基于PaaS构建。具有以下优势:开源、自主可控:Logi-Agent、Logi-LogX、Logi-KafkaManager、Logi-ElasticSearchManager所有PaaS套件计划完全开源;引擎稳定可靠:Agent40MB/S优秀的单任务采集性能,隔离可控资源;LogX采集任务实时ETL秒级延时,计算性能极致优化;滴滴卡夫卡100GB/S的实时流量;滴滴ElasticSearch数十PB索引存储集群稳定性99.95%;服务运营沉淀:数十万条日志服务任务端到端全链路,保证日志数据的及时性、完整性、可观察性、运维友好性;产品资源调度灵活,分级保障能力专业易用的平台:端到端自助接入日志全链路,分钟级;SQL模板+UDF的个性化清洗能力支持;百TB数据秒级检索体验。》Logi-Agent介绍Logi-Agent致力于打造企业级数据采集平台,负责公司内多端、多态的数据采集。,20000+日志采集任务,单任务最大采集能力40MB/S。》Logi-Kafka从用户、研发、运维的不同角度,针对高频场景引入PaaS,提升运维友好性、引擎可观察性和用户便利性,已开源https://github.com/didi/kafka..500+免费用户,体验地址:http://117.51.146.109:8080/,账号密码:admin/admin滴滴Kafka集群规模500+,60GB/S流量,多租户大集群场景体验分享(PeakCPU利用率30%,磁盘50%),SLA承诺99.95%,引擎在2.5版本的基础上增强了40+特性,磁盘过载保护、分区动态迁移、业务线程隔离是滴滴的特色功能,稳手的重要抓手!》Logi-LogX简介LogX是面向服务的,以MB/S为单位的Quota,以SreamingSQL+UDF为ETL表达载体,支持以Quota为单位的动态扩缩容能力,构建以任务为单位的渠道端到端性能、时效性和完备性指标体系。滴滴20000+StreamingSQLETL任务,单任务最大流量500MB/S,90%端到端ETL延迟小于2Min,具备分钟级动态扩缩容能力。》Logi-ElasticSearch引入业界最专业的ElasticSearch-Manager,基于用户、研发、运维等不同角度的高频场景PaaS,沉淀具有全托管特性的索引服务。提供基于索引模板的容量规划功能,集群磁盘利用率30%→65%,开源准备。自研ElasticSearch-GateWay,提供跨集群访问、多版本兼容、租户定义与安全、DSL审计与分析等主要扩展与实用特性,支持滴滴50亿次/天的数据读取和1200W/S的数据写入是ES引擎平滑升级2.3.3->6.6.1->7.6.1的基石组件。滴滴ElasticSearch集群规模3500+,8PB存储,共享多租户大集群(1000+实例,60WShard,CPU利用率峰值45%,磁盘60%)场景体验。SLA承诺99.95%。该引擎在7.6.1版本的基础上有150+个功能增强,写入性能是社区版的2倍。FastIndex50TB索引1小时搭建,已开源(https://github.com/didi/ES-Fastloader)。自研DCDR提供高可用的集群间索引能力,为在线50+主要搜索场景提供多站点多活能力,为ES社区贡献了30+个PR。03滴滴Logi应用案例滴滴Logi在滴滴内部服务场景广泛,在故障定位、日志分析、日志服务、业务运营、安全审计、日志资产、日志大屏等场景有深入实践.限于篇幅,以下将从日志服务LogInsight和业务运营魔镜两个方面进行阐述,分析基于滴滴Logi可以产生的业务价值。》LogInsight基于滴滴日志的能力,LogInsight专注于云日志存储解决方案。为云化、容器化后的日志存储和分析提供日志冷备份、资源管理、日志检索能力。显着降低日志使用量,存储成本完全托管,弹性伸缩,免运维冷备份存储,约0.02元/GB/月,显着降低存储开销,支持1-365天自定义存储时间;快速发现和定位问题,提高业务稳定性基于大数据流计算实现接口性能和错误日志的统计分析,提供接口调用关系、拓扑关系、上下游流量分析、服务错误定位、错误聚类等功能;安全可靠可用性不低于99.9%%,每天可处理数百TB日志数据的实时采集,日志存储不丢失,满足日志审计要求。》MirrorMirror是专业的场景化用户行为智能分析平台,提供从数据采集、存储、计算、分析到运营推广的全流程解决方案。基于场景的分析模型用户留存分析、用户轨迹分析、用户画像分析;基础服务能力核心指标可实时查看当天数据,实时计算,秒级生成数据,市场支持综合报表;非研发人员可自行创建数据分析能力,支持多类型可视化报表,支持数据导出分析,支持omegadata上报数据;多产品满意度调查支持多组织、多产品结构,支持在线自动配置,支持抽奖,提高参与度。基于滴滴Logi日志服务套件,滴滴Logi不仅可以更好地满足日志场景下运维可观察性和应用可观察性的通用需求,也可以更好地满足业务运营、安全审计、日志分析、日志记录等需求。挖矿等不同场景的全方位需求。滴滴出行整体开源计划如下,欢迎大家关注。在生产过程中使用开源版本的企业用户可以加入OCE,我们会提供额外更好的支持,比如专属的技术沙龙、企业一对一的交流机会、专属的问答群。OCE申请入口在Obsuite公众号的菜单中,点击【OCE认证】直接申请。
