在过去的几个月里,发生了一些重大的IT中断:WellsFargo的业务被关闭了一天,导致客户无法访问他们的账户;60,000名乘客滞留;由于这些产品的故障,全球用户无法访问和使用Gmail和GoogleDocs。此外,今年2月VFEmail.net的所有客户端数据(包括备份)全部丢失。规划这些事件和类似的IT问题为人们提供了两个重要信息:IT中断可能发生在任何人身上。下一次IT中断造成的损害程度取决于您现在的准备情况。值得注意的是,超过60%的IT中断或“灾难性事件”是由人为错误引起的。那么,企业如何才能减少下一次IT中断对其收入、声誉和客户造成的损害呢?首先,确保企业有业务连续性计划(BCP),其中包括灾难恢复计划(概述企业将如何处理IT问题)并为企业的其余部分制定计划(例如,如果关键渠道确保关键人员知道发生了什么、在哪里会面、定义指挥链等)。此处概述了在IT领域取得成功的四个关键步骤:1.定义潜在的灾难场景对于大多数企业而言,有两种主要的IT灾难场景:系统中断,网络或应用程序的某些关键部分出现故障业务失败或其服务在一段时间内处于“离线”状态。这通常是一个相对容易的恢复点,因为业务已恢复在线并且运营受停机时间的影响最小。数据丢失,企业丢失信息、内容或数据(企业本身或其客户)。从数据丢失中恢复并不总是可能的,例如在VFEmail.net的黑客攻击中,它的所有备份副本都被删除了。确保企业为灾难做好准备需要了解这些常见中断类型的风险概况:例如,系统中断会影响哪些功能?这些功能对企业的业务有多重要?中断会导致数据丢失吗?还有哪些活动?会不会造成数据丢失?等等。还要记住,人为错误将是这两种灾难的最常见原因(例如芝加哥铁路停运,一名工人在服务器更新期间跌落在电路板上)。2.评估对企业可能造成的损害。这是IT部门和其他领导之间的共同努力。企业的目标是了解如果单个数据块发生故障或发生各种类型的数据丢失对其业务的影响。在这些对话中,目的是了解业务关键应用程序之间的依赖关系(例如,业务知道需要激活支付处理应用程序,但它是否依赖于库存应用程序的功能?),阐明用户停机时间,以及评估停机时间的每一分钟对您的业务造成的财务影响。以下是要衡量的指标:RTO(恢复时间目标),它定义了企业在业务中断后可以存活多长时间而不会造成严重损害。企业的灾难恢复计划应概述通过企业定义的RTO(恢复时间目标)恢复业务运营的策略。RPO(恢复点目标)定义了在不显着影响企业和业务运营的情况下数据备份之间的时间长度。企业的业务中断分析会定义企业的RPO(RecoveryPointObjective)。因此,如果企业的灾难恢复计划要求从上次已知备份恢复数据,则RPO(恢复点目标)定义该备份何时可接受。如果企业想要采取额外措施,请确保评估包括对停机造成的潜在声誉损害的评估。这很难计算,但它可以成为决策过程中有价值的组成部分。3.查看您当前的灾难恢复计划一旦您了解您可以合理承受多少停机时间,请查看您当前的灾难恢复计划。如果像大多数企业一样,您有灾难恢复计划,但不努力更新或定期测试它,那么是时候改变了。在审查灾难恢复计划时,请考虑以下因素:它是否反映了您当前业务的实际情况,包括您在之前的对话中阐述的关键业务应用程序计划?如果没有,则需要更新。尺寸合适吗?IT团队非常擅长想出创造性的灾难恢复方法。这部分是因为这些系统是由他们创建的,并且他们非常适应所有可能出错的方式。但是,精心设计的灾难恢复往往超出业务需求,而且成本可能超出其承受能力。如果企业确定它可以承受三天的停机时间,并且其当前的灾难恢复计划可以在六小时内恢复在线,则需要进行一些更改。商家测试了吗?许多灾难恢复计划都已到位,以检查选项或满足法规要求。但是,如果企业不测试自己的计划,那么它对处于真正灾难中的企业毫无价值。企业无法知道它是否真的能防止意外中断和数据丢失可能导致的收入损失和声誉损失。4.更新和测试您的企业灾难恢复计划大多数企业不会定期更新和测试他们的灾难恢复计划,这是一个大问题,因为在真正的灾难发生时,过时的灾难恢复计划或多或少会变成这样。毫无价值。在进行更改时,请遵循以下步骤:指派负责灾难恢复和测试的人员。这意味着如果出现问题,有人负责,这大大增加了测试完成的机会。确保公司管理层认同制定灾难恢复计划和进行定期压力测试的重要性。这对于获得非IT同事所需的参与至关重要。包括“灾难”的定义。经理们知道在停机一小时后何时以及如何启动灾难恢复计划吗?制定防灾规则。前面提到的芝加哥铁路灾难的发生部分是因为该公司在高峰时段升级了服务器。这是一个令人难以置信但可以避免的错误:如果那个工人没有在半夜跌倒在电路板上,那么不会有那么多顾客受到影响。包括沟通计划。在灾难期间(“发生了什么”)和灾难之后(“发生了什么和正在做什么以提高未来绩效”)与利益相关者保持透明度将大大有助于减轻灾难可能造成的声誉损害。有效的灾难恢复是细节虽然每个企业都应该制定并测试灾难恢复计划,但并非所有企业都能以相同的方式满足他们的需求或应对灾难。对于任何企业而言,灾难恢复都应该基于两个方面:风险状况和从事件中恢复的能力。为确保企业的下一次IT中断对其客户、收入和声誉造成的损害尽可能小,需要时间来了解可能出现问题的细节以及这些问题将如何影响其客户,并制定灾难恢复计划尽量减少这一点。种影响。
