随着公司业务的快速发展,我们的生产环境产品和应用变得越来越复杂,彼此之间的联系依赖变得越来越复杂。异常应用会影响系统的可用性并引起整体影响。从2021年去年的C端失败的角度来看,从失败开始,响应时间和应急响应需要改善。因此,NOC应优化现有的警报响应质量,制定新的NOC -SLA系统,标准服务水平协议!加速响应并事先找到响应!
C终端是指消费者和个人用户消费者;顾名思义,它是为个人用户提供服务的产品。它直接为用户服务。C端分为两种情况:“交易”和“社区”。包括在线交易,社区,算法,涉及订单,投标和库存,市场营销,商品,商品,社区正面和背部 - 算法,算法交易和社区建议和社区建议作为重要的依赖性。
1)交易角2)社区角度
2.1在-6021年中,由于技术问题,商品服务的命令继续下降,这会影响用户下达订单。
2.2在2021年第四季度,由于技术问题,代码错误和REDIS缓存分辨率异常导致交易订单在同一天异常下降,影响用户的订单购买体验
随着公司业务的快速发展,我们的生产环境产品和应用程序变得越来越复杂,彼此之间的联系变得越来越复杂。异常的一种应用可能会导致整个身体,从而影响整体情况。
1)在过去的2021年,年度的年度失败分析影响了年度失败的34.7%,而C部分计算警察的发现率仅为42%。
2)从2021年到现在,C端中的NOC的反应率在失败分析到3分钟15分钟的当前反应中,所有人都可以加强;
在去年年底遭受了大规模损害P1型故障后,NOC-警告警告后,没有判断对响应的响应是否尽快延迟,从而导致离线损害扩张的活动延迟,如以下问题:
通过上述故障分析中警报问题的问题以及NOC遇到重大失败判断的响应问题,NOC学生没有优先考虑NOC同学从失败发现到失败的日常处理。处理,信息分散,并且缺乏抽象聚合。可以从点传播到脸部的问题可以传播。监视系统对业务方案监控和NOC自己的业务方案的了解需要提高。
因此,已经建立了NOC -SLA特别项目,并且均匀的闭合访问NOC -SLA系统监控警报Output SOP针对All -Division业务风景区域的P0P1优先级。INCTRUCE NOC -SLA特殊开发。
1)根据SLA保证水平,我们将重要的业务水平分配,并且失败水平分为三个级别:P0(SLA 3分钟),P1(SLA 5分钟),P2(15分钟)(15分钟)(15分钟))
2)根据损害类型的类型,指我们业务的业务损失类型,我们将SLA保证对象类型分为六个项目:业务损失,资金损失,基础设施,数据质量,工作场所绩效和开发测试。描述如下:
3)业务视角3.1在业务研发的角度对业务损害情景进行特定分析;
3.2从运营和维护基础设施(例如P0)的角度分析业务损失;
4)SOP定义2.1SLA访问规范
交易的限制包括在线交易,社区,算法,涉及订单,投标和库存,营销和商品,以及交易中的商品。17个P1场景的警报规则是完美的。
1.1 C -End业务线行业重要级别的示例,将订单的核心链接分为P0P1P2级别的优先级
Cside SLA着陆处处于SLA特殊着陆阶段。在完成SLA业务监控方案指标的焦点之后,我们将不断编译业务场景c- disconnection的核心规则+触发条件。场景的不同数据指标,不断地将基线计算公式抛在后面,启动,开始,启动试图通过历史波动数据作为基本算法模型访问智能基线,以确保可以在P0场景中快速找到P1和P2故障。
2.1 C-侧SLA基线1)目前,整个C端的基线配置基于业务流量的历史峰值,并不断反复探索和确认
2)智能基线 - 型号2.2 SLA监视和警报优化在监视和警报配置方面,我们可以升级和优化监视汇总尺寸。根据多种情况,多规则不同的业务视角与之相关,通知警报模板更加清晰,并且异常波动图很明显。
1)信息集成2)SLA特殊监控和警报规则 - 多样性
3)NOC -SLA专有警报逻辑基本描述:VM数据延迟导致警报读取付款订单数据错误,导致付款警报错误警报警报警报
影响说明:P0-SLA-3M警报规则“由于数据延迟问题,薪酬订单比率下降了超过35%的基线”
警报显示波动比为40%,但监视屏幕截图和跳跃监视地址没有异常波动。
优化:原始警报检测时间点为12s,发现12s中仍然存在一个完整的数据问题,这很容易引起错误。12S时间的时间检测点已关闭,并且20S检测点切换(20S是一个新的测试点,不是新的测试点,不是最终点),预计警报延迟将在大约25左右延迟。预期开关后的-30秒,并且邮政公式将产生NOC-SLA专有警报逻辑(通过计算公式获得的值与阈值进行比较,并且阈值不需要负数。只有正数。比较符号证实了上升和下降,例如上个月减少30个。
SLA紧急过程规范优化
1)在着陆后对NOC -SLA进行了审查后,添加SOS(故障紧急系统)。SLA指示器下降后
2)增加紧急小组,包括NOC两组/专家小组,该小组用于指导紧急指导中的故障迅速恢复;
3)故障自动升级机制,基于新版本的故障,确定自动匹配的1分钟自动组同步现有故障信息概述;
3)减少群体,收敛组,减少骚乱,并使NOC值班人员更加专注于有限的主要飞行书籍;
在我们经历了许多大规模的损害失败中和和业务可用性的严重缺点之后,我们审查并总结了如何快速从紧急保护和事先警告。投射并确定发现,处理,停止流血并设置P0(SLA 3分钟),P1(SLA 5分钟),P2(15分钟)的痛苦为15分钟)。同时,各个业务领域的业务链接分为水平。从警报聚合和链接SOS故障中,它目前正在升起。目前,9个核心P0场景的17个主要P0场景位于交易的端口上,但还不够好。“保存”可以实现可持续性,准确性和可靠性。
从发现烟雾的角度来看,我们必须不断地抛光NOC -SLA以增强警报延展性,观察场景以不断扩大P1以下场景,并专注于预防发现从预防的角度进行的发现。问题,避免小问题和大失败,还有很长的路要走。目前,已经达到了3分钟5min-15min的响应。稳定的生产帮助!
文字/木鱼老鼠
注意材料技术,并成为最时尚的技术人员!
原始:https://juejin.cn/post/7101867237526470687