【.com速译】如果你是一家公司的运营人员或者安保人员,那么想必你对事件管理的概念并不陌生。所谓事件(或事故)是一个广义的术语。它描述了导致给定服务质量突然下降或完全中断的任何有害事件。根据维基百科的解释,事件管理是指开发人员和IT运维团队为了响应系统故障(事件),尽快恢复服务的正常运行而开发和体验的流程。显然,事件管理通常需要开发或运营团队的及时响应。我们通常将此类处理团队称为on-call团队或响应团队。事件管理的五个主要过程1.监控作为事件管理过程的第一部分,监控可以帮助管理人员发现系统中的问题,并从最终用户那里验证问题。一旦确定了问题,就会创建相应的事件。系统还会根据事件的性质通知相关团队成员。最常见的示例之一是监控公司主页的可访问性,使用预先设置的特定监视器每30秒自动检查一次目标网站。一旦发现网站访问速度极慢甚至无法访问,就会立即触发警报。这里的警报实际上是包含事件基本信息的通知。例如:“网站服务器不堪重负”等警报包括有关流量高峰时间的信息。下图是监控google.com可用性的界面截图。2.值班计划作为一种实践,值班意味着给定的团队成员可以在给定的时间内响应各种警报。显然,企业应根据自身事件管理需要,提前制定值班计划。毕竟,它可以确保那些“值班”的人收到来自监视器的事件警报并立即做出响应。例如,企业可以提前安排人员每周末全天候(0:00至23:59)值班。这意味着无论何时发生事件,无论是下午2点还是凌晨3点,他们都应该立即做出反应。不同的组织对处于“值班状态”的人员可能有不同的要求。有的需要极强的技术能力,可以独立自主;有的只需要及时通知并转发给相应的技术专家即可。当然,每个组织的目标都是相似的:他们都需要能够在事件发生时能够及时响应的人介入并处理紧急情况。下图是话务员计划的“电话树”示例。3.发现事件后,班长如何与值班响应小组沟通?在这里,事件警报流程确保系统在正确的时间以正确的方式向正确的人发出警报。为了达到自动向特定团队成员发送通知的目的,我们可以通过短信、电话、通知推送等方式及时发出提醒。在内容上,告警不应该简单地停留在普通的通知层面,而是需要能够提供事件的详细信息,以帮助响应团队快速找到原因并解决问题。下图是spacex.com网站的电子邮件事件警报示例。4.沟通虽然警报系统会自动通知响应团队,但公司内的其他团队,以及产品用户或潜在客户如何知道事件的发生?显然,一旦事件发生,响应团队和受影响的各方人员应该能够进行适当的沟通。为此,组织可以创建一个专门的页面,以方便内部和外部用户及时了解情况并相互交流。目前,Twitter和其他社交媒体应用程序提供了有用的小部件,允许组织广泛发布与事件相关的频道通信页面。下图是某企业搭建的展示当前系统或服务状态的页面。5.响应事件响应的过程是团队协作和解决事件的方式。由于不同的公司使用不同的工具、软件和流程,因此不同的团队会以不同的方式处理此步骤。通常,为了找到事件的根本原因,许多团队依靠特定的软件进行深入分析和故障排除。同时,为了便于统一管理,此类事件的响应工具往往是集中的。换句话说,通过各个团队成员之间的相互沟通,所有的信息都会汇总在这里,这里记录和展示了事件发展的详细时间线,以及处理和解决事件所采取的所有措施。当然,各种处理命令也是从这个单一来源发出的。下图显示了一个集中响应平台,用于记录事件的详细时间线。事件防御管理优秀实践1.事件监控优秀实践在实践中,我们往往希望发出的告警能够像触发告警的监控工具一样及时准确。因此,在配置监控解决方案时,我们需要关注三个方面:事件验证、检查频率和警报阈值。事件验证是为了确保事件的真实性。我们需要适当的事件验证机制来确保响应团队不会收到无意义的误报。检查频率监控器检查目标服务的频率决定了发现潜在事件的速度以及发出警报的速度。例如,30秒的检查频率通常被认为是正确运行服务的良好做法。警报阈值作为触发警报的条件,我们必须将能够触发事件的那些阈值设置为现实的。可以说,正确的阈值设置,既可以保证响应团队及时采取行动,又可以避免他们频繁出击,耗费人力物力。2、值班模式的优秀实践前文已经提到,行业内不存在所谓“一刀切”的值班方案。您可以根据组织的实际情况和需要创建合适的考勤系统,其中重要的考虑因素是:团队的规模、每个团队的位置、每个团队成员的能力以及他们的工作时间偏好。On-Call轮换通过预置,我们可以将on-call计划预置为一种闭环的呼叫方式,避免人员响应出现单点空缺。具体来说,我们可以从以下几个方面进行设计:团队规模首先要考虑的是现有的团队规模。比如我们可以针对同一个岗位,组建一个两人团队。即角色A负责周一、周三、周五、周日的响应;而角色B负责周二、周四和周六;他们的轮班日在下一个周期中倒转。这种循环对于较大的团队来说更为常见。团队定位当您的团队遍布全球时,为了让团队成员更好地平衡工作与生活,您可以在不同时区设立“follow-the-sun”团队,确保每个地区的成员只在自己的白天时间值班,并保证在任何时间点发生事件时都会有人响应。个人偏好我们有时会发现自己的团队中有各种各样的人。有些人是“早起的鸟儿”,喜欢在凌晨4:00到下午4:00值班;其他人是“夜猫子”,喜欢从下午4:00到凌晨4:00值班。这样,两者的搭配正好可以互补,满足闭环值班的需要。团队成员能力在大多数情况下,并非所有团队成员都对同一系统具有相同水平的知识和技能。对此,我们可以根据他们的能力,设计不同的功能和梯队。根据事件可能影响的系统的不同部分,以及事件本身的性质,我们可以分配具有不同专业知识和能力的人员。下图是不同AB角值班班组的排班表。正如促销政策中所说:“不要让球落地”。遇到以下两种情况,需要及时升级事件。急救人员无法自行解决问题,需要其他团队成员的帮助。无法确认急救人员是否收到警报。例如,深夜发生事件,触发的报警未能唤醒指定的第一响应者,系统会自动升级,根据上述“电话树”呼叫第二响应者。按资历升级理想情况下,我们可以根据“能做更多工作”的原则,将事件处理的需求转发给最资深的人员。但在现实中,这可能会压倒“能者”。因此,我们可以设置一个基于资历的升级方式,让升级链上的每个人都有机会在事件处理上得到锻炼,同时为资深人员提供多层次的缓冲。基于功能的升级由于系统往往很复杂,我们可以根据硬件设施、基础设施、交换网络、操作系统、软件应用程序和数据库等不同的功能角色来设计升级环节。自动升级有时,事件的定义不够明确,或者它的属性过于复杂。这时候,我们需要设计一个默认的自动升级策略,要么直接升级到组长,要么根据严重程度升级到整个团队。下图是一个自动升级策略的例子。3.事件报警的优秀实践与上面的值班规则相比,事件报警的规则可能并不唯一。总的来说,良好的警报实践是通过正确的渠道让响应团队获得最少数量的所有必要信息。正确使用通知渠道通常,我们可以通过电话、短信、Slack、Microsoftteams、邮件等推送方式获取服务中断等事件通知。在时效性上,电话优于短信,短信优于电子邮件。因此,我们可以根据事件本身的优先级选择不同的告警方式。当然,在选择通知渠道时,我们还需要参考上文提到的值班模式和团队成员的喜好。例如,对于在办公室值班的人来说,即时通讯会更有效率,电话会产生更多的噪音;而对于在家办公的人来说,手机闹钟绝对是最好的选择。重复数据删除和告警分组当一些严重的问题发生或广泛传播时,系统通常会触发多个告警。对此,我们需要让报警系统自动对类似报警进行去重,避免出现“爆屏”现象。同时,我们可以将相关告警归为一组,供响应团队深入分析研究。创建有用的警报对于响应团队,他们通常希望收到的不仅仅是简单的警报,而是高质量的状态数据信息,例如事件日志、错误屏幕截图和系统性能图,这可以大大简化诊断和管理。调试过程。下图是Slack发送的有用警报示例。避免警觉疲劳人类是懒惰的。面对长时间收到的海量警报,值班团队会逐渐增加对事件的心理容忍度。他们要么误判为“虚惊一场”,要么在一些严肃的问题上产生“懒政”情绪,甚至有意无视。对此,我们需要通过前面提到的去重等手段来减少告警总数。具体方法可以参考文章《平均响应时间(MTTR)和事件管理的KPI》。4、事件沟通的优秀实践众所周知,当事件发生时,顺畅透明的沟通方式,不仅可以及时止损,也有利于响应团队联合“作战”,共同攻坚。我们可以通过以下三种方式实现事件的顺畅通信。创建有用的状态页面许多公司使用专用状态页面作为重要事件的沟通渠道。通常,此页面可以显示事件的来龙去脉。通过访问或订阅状态页面,响应团队可以在页面上实时更新、发布或接收最新信息。向网站访问者或用户传达事件的最简单方法是使用嵌入式状态。它显示为网站顶部的嵌入式小部件,并通知用户事件的详细信息。如果用户单击它,它会将他们带到一个专门提供详细信息的状态页面。从而使系统运营商能够及时与用户沟通业务中断信息。不要忽视社交媒体今天,许多公司已经转向社交媒体帐户发布重要公告,因为人们不时查看他们的社交媒体提要。例如,一些公司利用推特广播服务宕机,及时更新账户主页状态,甚至与订阅者进行简单的问答互动。下图是Stripe公司在Twitter上的状态页面。5.事件响应的优秀实践在实际解决事件的过程中,我们不能指望技术专家能够快速、敏锐地修复所有故障。为此,我们可以使用集中的任务控制工具,提前制定标准化的诊断流程和行动步骤,让团队中的每一位成员都能遵循并得到行动指导。制定行动计划在制定行动计划的过程中,我们可以以预定义场景的形式为响应团队的不同职能角色提供详细的步骤,例如if-then,以帮助他们诊断根本原因。为避免人为判断偏差,行动计划应提供默认选项,并根据需要在关键步骤附上相关文件或参考手册。集中任务控制由于时间紧迫和任务紧急,响应人员通常希望能够从“一站式服务”开始工作。因此,我们需要提供一个集中的工作平台,接入团队可以按需获取必要的信息,如:联系人列表、值班人员信息、升级策略,避免他们在各种工具和工具之间来回切换。文档,“大海捞针”。同时,集中式任务控制可以用统一的时间戳准确记录事件处理的全过程。这些包括:谁在什么时候,采取了哪些步骤,以及解决了哪些问题点。这样既避免了重复记录,又实现了可记录记录,这对于事后考核处理的KPI来说非常实用。不要小看,事后整改往往是一个容易被忽视的项目在事件处理的全过程中,针对事件,相关职能部门要及时开展自查,防止类似事件再次发生事件。响应团队还需要通过处理记录和KPI来评估实施效果,分析偏离原计划的原因,总结经验教训,然后提出改进方案。原标题:2021年的事件管理:从基础到最佳实践,作者:JanTovarys
