制定数据中心灾难恢复计划和业务连续性计划时,请记住您正在保护对信息技术和通信基础设施的重大投资。根据中断的严重程度,数据中心的整体完整性可能根本不会受到影响,也可能完全受到损害。灾难恢复(DR)规划需要灵活性和可扩展性,以应对各种可能的中断场景。业务连续性(BC)计划也是如此。两者还需要定期测试,以确保技术、流程和人员在发生灾难时协同工作,以最大限度地减少业务中断。本数据中心灾难恢复规划指南侧重于制定灾难恢复计划的最佳实践。我们确定成功的数据中心灾难恢复规划中最关键的因素,谁应该参与流程规划以及从哪里开始。业务连续性计划和灾难恢复计划有什么区别?业务连续性计划可确保人们在原始工作环境不可用时有替代地点。业务连续性计划需要列出基本业务功能,清楚地确定必须不间断运行的系统和流程,并解释如何维护这些系统和流程。它应该充分考虑可能出现的任何业务中断。灾难恢复计划是一个广义术语,描述了在企业和组织内恢复中断的IT系统、网络和其他关键资产的过程。在计划从任何灾难中恢复时,拥有灾难恢复站点是一个极其重要的因素。公司可以建立自己的内部站点,自行管理,也可以通过云托管提供商建立外部站点。需要快速恢复数据的企业通常会选择本地站点,这通常是另一个可以快速恢复业务运营的数据中心。但云灾备方案不断完善,响应时间越来越短,已经可以满足恢复时间间隔更短的目标。可以不同程度地使用外部灾难恢复站点。主数据中心发生灾难事件后,热灾备站点可以作为一个全功能的数据中心独立运行。较热的站点是配置了设备但缺少数据的站点。当灾难袭来时,公司需要添加客户数据(通常包括软件和硬件层)。相比之下,冷站点只有IT基础设施,但在灾难发生之前没有配置任何设备。冷站点适用于需要等待很长时间才能恢复运营或仅针对特定工作负载的企业和组织。企业或组织可能会使用多种不同类型的站点,将其最关键的应用程序和数据放在热站点上,而不太重要的系统则放在较热或较冷的站点上。相比之下,数据中心灾难恢复规划侧重于特定的数据中心设施及其基础设施,包括位置、建筑、安全、电力和环境系统。第1步:运营风险评估准备数据中心灾难恢复规划的一项关键活动是对建筑物或设施进行运营风险评估,分析关键运营项目,例如建筑物位置,包括接入线路;和燃料储存地点的距离;距公路、铁路线和机场的距离;发电设施,包括商用电源和备用电源系统;电源保护,包括接地和连接、避雷器、线路调节器、浪涌抑制器;HVAC(供暖、通风和空调);关键系统,包括服务器、VoIP系统;网络基础设施,包括电缆、连接器、路由器、同轴电缆和光纤电路;安全,包括物理访问和信息安全;工作区域,包括办公室、会议室、房间、家具、照明;消防,包括火灾探测器、烟雾探测器、灭火器、FM-200灭火系统;建筑地板和墙壁,包括防火墙、高架地板;和公用事业,包括水、电、排水和通讯。在规划数据中心运营风险评估的过程中,如果公司采用租赁模式,需要与IT和楼宇管理部门进行协调;如果它自己拥有建筑物,则协调和其他部门将成为设施管理部门。在开始之前,请与这些组织核实评估的目标。如果您有风险评估清单,请与IT管理、建筑管理和设施管理团队一起审查它,以确保它涵盖所有基础。如果可能,请询问IT和设施团队是否进行了任何评估,或者是否保留了任何文档。当然,这可能会为您节省很多时间,前提是数据的历史不超过一年。在评估期间执行以下操作:1.数据中心灾难恢复计划开发团队应与包括内部技术团队、应用程序团队和网络管理成员在内的各种IT团队会面,以确保数据中心设施的所有成员定期进行包括在灾难恢复规划过程中。2.列出内部和外部数据中心资产、第三方供应商和资源以及所有相关方。3.收集所有相关的基础设施文件,例如建筑平面图、平面图、系统架构图、网络拓扑图和设备配置。4.获取现有数据中心灾难恢复计划的副本(如果您已有)。如果没有,请按照下列步骤操作:与管理层合作,确定对数据中心最严重的威胁,例如火灾、人为错误、停电、系统故障或安全漏洞。b.与管理层合作,找出数据中心中最严重的漏洞,例如过时的备用电源系统。C。查看数据中心发生的历史中断和中断以及我们如何处理它们。d.如果数据中心变得不可用,定义管理可以接受中断的最大时间量。e.确定当前响应数据中心中断的流程。F。确定执行上述过程的最后一次测试的时间。G。确定数据中心内的应急响应团队及其在紧急情况下的培训水平。H。识别数据中心供应商的应急响应能力,尤其是那些过去有过合作历史的供应商,看他们是否还能提供服务,服务的成本,以及当前的服务合同状态。将数据中心运行评估的结果汇总成差距分析报告,找出已经做了什么和需要改进的地方,并就如何达到目标水平和预期投资提出建议。作为分析过程的一部分,检查数据中心中断的影响。如果数据中心运营中断,关键业务流程将受到怎样的影响?数据中心中断后对公司形象、声誉和竞争地位有何影响?除了确定对业务的影响外,评估还可以确定可能受中断影响的改进领域(例如,需要更换的过时柴油发电机组),这有助于灾难恢复规划。制定数据中心灾难恢复计划一旦完成数据中心分析并识别出潜在的运营风险,就应按照严重程度、潜在损害和发生可能性的顺序对风险场景进行优先排序,以便有效地实施计划的响应活动。有针对性的排序。使用美国国家标准技术研究院SP800-34标准“信息技术系统应急计划指南”中提到的结构,我们可以将这些活动扩展为以下结构化的活动序列:1.数据中心的开发团队计划应与内部技术团队、设施部门、公用事业服务提供商和相关供应商开会确定活动范围,包括内部和外部威胁、内部和外部资产、第三方资源以及如何联系其他办公室/客户/供应商.请务必将这些会议报告给高级管理层,以便他们随时了解情况。2.收集所有相关的基础设施文件,如建筑平面图、施工现场地图、公用设施布局、HVAC图、网络架构图和设备配置。3.获取您现有IT灾难恢复计划的副本。如果没有,请按顺序执行以下步骤:与管理层合作确定对数据中心基础设施最严重的威胁,例如火灾、人为错误、断电、洪水、系统故障、恶劣天气等。确定管理层认为哪些是数据中心中最严重的漏洞,例如缺乏备份功能、建筑安全性差或数据中心靠近经常发生洪水的平原。C。查看数据中心发生的历史中断和中断以及我们如何处理它们。d.确定管理层认为最重要的数据中心资产,例如服务器场、存储系统、网络基础设施、人员配备。e.在数据中心资产不可用的情况下,管理层可接受的最长中断持续时间。F。确定当前用于响应关键数据中心故障的操作流程。G。确定上次测试这些过程的时间以验证它们的相关性。H。找到所有关键数据中心中断的应急响应团队。确定他们的培训水平,尤其是在紧急情况下。我。确定供应商的应急能力:之前是否有过合作;如果有,服务是否仍然可用;公司将为这些服务支付的金额;数据中心维护合同的状态;如果是这样,服务级别协议是什么。4.将所有评估结果汇总成差距分析报告,确定当前工作和需要改进的地方,并就如何达到所需的数据中心准备水平和投资计划提出建议。5.管理层审查报告并就提议的行动达成一致。6.准备数据中心灾难恢复计划,解决所需的关键设施(包括硬件和软件、数据存储、网络)。7.测试计划和系统恢复设施以验证正常运行。8、更新数据中心灾备计划文件,记录变更事项。9.安排下一次数据中心灾难恢复功能的检查/审计。重要的数据中心灾难恢复计划提醒在制定数据中心灾难恢复计划时,请牢记以下准则:1.获得高级管理层的支持,以便为您的计划提供资金。2、注意数据中心灾备规划的流程:规划不一定要长到几十页;但它必须包含正确、准确和准确的信息。3.考虑在流程中引入行业标准,包括NISTSP800-34、ISO/IEC24762:2008和BS25777:2008。这些标准为您的规划提供了有用的结构化模板,并为要解决的问题提供了指导。如果程序要接受审计,这一点尤其重要。4.收集和组织精确的信息,使规划过程简单化。5.与IT和设施等关键部门一起审查结果,以确保假设的有效性。数据中心灾难恢复规划有助于保护大多数企业和组织的主要投资。虽然一些公司通过建立第二个数据中心或在第三方环境中租用特定空间来解决数据中心恢复问题,但对数据中心运营和风险的仔细评估仍然是灾难恢复规划的重要起点。
