线上出现故障时,除了查看日志和排查异常,还有一个很重要的事情——通知。由于公司的业务形式和属性不同,业务方也不同。如果业务方是公司(内部)另一个组的同事,那么可以考虑直接通知他。如果业务方是用户/客户(外部),那么最好先通知公司的运营/业务,让他们处理外部的事情。如果没有基本流程,出现故障时肯定会遇到这样的情况:业务方:恢复需要多长时间?领导:让我们看看是怎么回事。业务方:你的问题严重吗?领导:通知所有业务方,然后处理问题。商家:价格信息没有了,是不是这个故障造成的?领导:哎,你通知业务组了吗?...你看到问题了吗?各方都在询问这件事情的具体情况、影响范围、影响程度、过错程度,其实是毫无准备,张口就问。你什么准备都没有,问了就答,听不懂就犹豫了。建立通知流程出现以上对话是因为我们对故障的认识不全面,没有关注对业务方的影响。仅仅靠口头指示、开会批评、事后猜测,在这件事情上并没有太大的帮助,因为执行效果会随着时间的推移慢慢变差,尤其是在大家都很忙的时候。在这种情况下,建立一个基本流程比批评和规劝更有效。根据以上对话,我们大致可以归纳出这些分类:[x]受影响的业务项目;[x]影响范围的大小;[x]影响的持续时间;[x]影响程度;确定内容后通知上级,并告知一些有用的信息。然后通知相关业务方,马上告诉他们想问什么。分析完之后,我们来建立一个基本的通知流程:收集故障和影响信息,比如故障情况、受影响的业务、影响范围、影响持续时间、影响级别;收集信息后,进行整理;通知上级负责人,描述问题、场景、影响,可能的话告知大致的调查方向或解决思路,最重要的是时间预估;正式通知相关业务方,通过邮件或钉钉告知故障情况、影响及预计恢复时间;故障登记;恢复后通知相关业务方;基本通知流程建立后,通知团队/部门成员严格遵守此流程。版权所有水印微信公众号Python编程参考|技术专栏https://www.weishidong.com实践为王上面说了,因为随着时间的推移,执行效果会逐渐变差。虽然建立了基本的通知流程,但实际上是一个空流程。影响范围是什么?时长怎么写?影响程度如何?如果不能确定这些,通知将不太成功,也不太有效。为了实施,必须根据通知程序确定通知清单。一个有效的通知列表看起来像这样:它看起来很不错,对吧?相信业务方或上级领导看到这样的故障通知信息后,不会再浪费时间追问,以免耽误程序恢复。一个简单的表格是不够的,比如如何知道这个项目关联的业务方是谁?这些级别是如何确定的?这些数字是如何产生的?不要着急,让我们一一解决。我们可以把通知列表上的信息看成是查询的结果。没有直接反映的信息可以通过相关查询得到,所以需要几个表:[x]用于判断业务级别;[x]用于确定影响等级表;[x]与业务方关联的业务表;这些表格需要由小组/部门整理。完成后,大家可以根据表格上的信息确定通知列表中的几个相关项。下面给出参考表,大家在工作中使用时可以根据实际情况稍作调整。影响等级评分参考表业务等级评分参考表关联编号命名参考表例子中的编号SPIDER-A-JOB-PRICE-01就是这样推导出来的。商务党协会参考表有了这些表格和通报清单,这件事的执行才能顺利进行。更多有用的知识,请阅读这本免费公开的253页全彩电子书《Python 编程参考》,您还可以下载原版PDF!关注微信公众号【Python编程参考】获取下载地址。
