当前位置: 首页 > 科技观察

运维必备系统:故障分类及惩罚规范

时间:2023-03-23 01:12:31 科技观察

作者简介  《海量运维、运营规划之道》作者唐文,我认为业界对海量运维和运维规划没有一个准确的定义。架构师可以通过摩天大楼能设计多高来衡量架构能力,而运维和运营则更关心互联网服务的质量、效率、成本、故障、瓶颈、用户耐心、投诉等问题。  未来几天,我们将围绕质量、效率、成本,从运营规划、管理、流程/标准、系统/平台、监控、告警、安全、优化、考核等多个维度结合案例.把自己的经历分享给大家,内容大致如下。  编者按:好的制度是可操作、可执行的,而不是高高在上。每个公司的情况不一样,需要根据公司自身情况定期修改系统。以下文章为系统模板,仅供参考。如果要使用,则必须对其进行修改。  text  互联网产品提供7*24小时服务,因人为操作、程序bug等原因造成的服务不可用是影响服务持续运行的重要原因。为提高各业务产品的运维和运行质量,非常有必要规范各业务线的服务和故障响应,制定并发布《故障分类及处罚规范》。  故障分类标准  在操作故障中,非不可抗力造成的故障均归类为“故障”。对于故障,将追究故障分类、故障责任人、故障处理结果。下面将定义和解释各种故障级别。由于故障可能反映出多方面的影响,故障综合评价的原则是取各个方面的严重程度最高的作为故障的综合严重程度。故障分类如下。  故障分级表  故障奖惩制度  运营故障处理考核是根据相关负责人对故障的反应、处理、完成结果等因素对故障处理情况进行综合评价,该部门将使用此评估来调整错误处罚级别。该评级仅用于部门内部确定的过错处罚等级,公司处罚规定不受此约束。符合以下条件者,可适当降低过错处罚等级。具体降级由部门领导决定。故障升级系统如下。  故障升级制度表  对于各级操作故障,如果操作故障的主要原因是人为疏忽/失误,将按照以下处罚标准对个人和项目团队进行处罚。发现操作失误,要及时通知有关领导或相关处理人员,对拖延报告、隐瞒不报的,将依法从重处罚。失败的分类和惩罚如下。  故障分类表