当前位置: 首页 > 科技观察

IT系统容灾计划12要素

时间:2023-03-14 14:55:56 科技观察

数字时代,企业需要更复杂的IT基础设施来保证业务的正常运行。因此,一旦IT基础设施出现问题,就可能给企业带来巨大的损失,甚至让企业消失。因此,在现代企业中,IT灾难仍然是对生产过程的最大威胁。什么是灾难?灾难是具有挑战性的麻烦事,可以立即压垮可用的人力、IT、财务和其他资源的能力,并导致文档、知识产权对象、数据或硬件等宝贵资产的重大损失。在大多数情况下,灾难是突然发生的一系列事件,这些事件会导致非典型威胁,一旦灾难开始,这些威胁就很难或不可能停止。根据灾难的类型,公司必须制定严格的预警计划。灾害主要分为三种:1)自然灾害:听到“灾害”这个词,大多数人首先想到的可能是自然灾害。不同类型的自然灾害包括洪水、地震、森林火灾、异常高温、大雪、暴雨、飓风和龙卷风以及海洋风暴。2)技术和人为灾难:技术灾难是与技术基础设施故障、人为错误或恶意有关的任何事情,包括软件中断、发电故障等。3)混合灾难:这些灾难包括全球软件中断、关键硬件中断故障、停电和任何电源问题、恶意软件(包括勒索软件)、电信问题(包括网络隔离)、军事冲突、恐怖事件、大坝溃决、化学事件。需要注意的是,第三类灾害包括结合了自然因素和技术因素特征的混合灾害。例如,大坝溃决可能导致洪水泛滥,造成整个地区或国家的停电和通讯问题。什么是灾难恢复?灾难恢复(DR)是在发生全局破坏性事件后应采取的一组操作(方法),以恢复和恢复操作。主要的灾难恢复活动侧重于重新获得对数据、硬件、软件、网络设备、连接和电源的访问。灾难恢复操作还可以包括重建物流、重新安置员工和购买办公设备,以防资产受损或毁坏。要创建灾难恢复计划,您需要考虑在以下时间段内完成的操作顺序:1)在灾难发生之前(构建、维护和测试DR系统和策略)。2)灾害期间(立即采取应对措施避免或减轻资产损失)。3)灾后(应用灾备系统恢复运营,联系客户和合作伙伴,分析损失和恢复效率)。灾难恢复计划中包含的12大要素1)业务影响分析和风险评估数据在这一步中,主要研究组织面临的典型和最危险的威胁和漏洞。有了这些知识,就可以计算特定灾难发生的概率,衡量对生产的潜在影响,并更轻松地实施合适的灾难恢复解决方案。2)恢复目标:定义RPO和RTORPO恢复点目标:此参数定义在不对生产产生重大影响的情况下可以丢失的数据量。RTO恢复时间目标:这是企业可以容忍的最大停机时间,因此也是完成恢复工作流的最长时间。3)职责分配建立一个了解每个成员在发生灾难时负责什么的团队是有效的灾难恢复计划的重要组成部分。组建一个专门的灾难恢复团队,为每个员工分配特定的角色,并在实际灾难发生之前培训他们履行自己的职责,这是在需要采取实际行动保护企业资产和生产时避免混乱和缺失环节的方法。4)灾难恢复站点创建任何规模或性质的灾难都会严重损坏业务主服务器和生产数据,使恢复操作无法进行或非常耗时。在这种情况下,具有关键工作负载副本的灾难恢复站点是最小化RTO并在紧急情况期间和之后继续为企业客户提供服务的最佳选择。5)故障恢复准备故障恢复是当主数据中心再次运行时将工作负载返回到主站点的过程,在计划灾难恢复时可能会被忽略。尽管如此,事先建立一个故障恢复序列可以帮助使过程更顺畅并避免可能发生的轻微数据丢失。此外,灾难恢复站点的设计通常不是为了长时间支持基础设施的功能。6)关键文件和资产的远程存储如今,即使是小型企业也会生成和处理大量关键数据。丢失硬拷贝或数字文档会使恢复变得耗时、昂贵,甚至不可能。因此,为数字文档准备VPS云存储、为硬拷贝资产准备受保护的物理存储等远程存储,是确保在发生灾难时重要数据的可访问性的可靠选择。7)指明设备要求该灾难恢复计划要求审查支持企业IT基础设施正常运行的节点。这包括计算机、物理服务器、网络路由器、硬盘驱动器、基于云的服务器托管设备等。这些知识使您能够查看灾难发生后恢复IT环境原始状态所需的要素。此外,企业可以查看至少支持关键任务工作负载所需的设备列表,并在主要资源不可用时确保生产连续性。8)沟通渠道定义为员工、管理层和灾难恢复团队提供稳定可靠的内部沟通系统。设置通信通道用于处理灾难后主服务器和内部网络不可用的顺序。9)概述响应程序在灾难恢复计划中,前几个小时非常关键。创建有关如何执行DR活动、监控和执行流程、故障转移序列、系统恢复验证等的分步说明。尽管采取了所有预防措施,但如果生产中心发生灾难,对特定事件的集中和快速响应可以帮助减轻损失。10)快速事件报告在灾难袭来并中断生产后,不仅应通知灾难恢复团队成员。您还需要通知相关人员,包括营销团队、第三方供应商、合作伙伴和客户。作为灾难??恢复计划的一部分,创建大纲和脚本,向员工展示如何将他们的担忧通知每个关键组。此外,预先创建的基本新闻稿可以帮助您避免在实际事件上浪费时间。11)容灾计划的测试与调整成功的企业会随着时间的推移发生变化和扩张,其容灾计划应根据相关需求和恢复目标进行调整。计划一经确定就立即进行测试,并在每次引入更改时执行额外的测试。因此,企业可以衡量灾难恢复计划的有效性并确保资产的可恢复性。12)应用最佳的灾难恢复策略灾难恢复策略可以在DIY(自己动手)的基础上实施,也可以委托给第三方供应商。前一种选择是为了经济而牺牲可靠性的方式,而后者可能更昂贵但更有效。灾难恢复策略的选择完全取决于企业的能力,包括团队规模、IT基础架构复杂性、预算、风险因素和所需的可靠性。总结灾难是一种突然的破坏性事件,可以使组织无法运作。自然灾害、人为灾害和混合灾害具有不同程度的可预测性,但几乎不可能在组织层面加以预防。确保组织安全的唯一方法是根据组织的特定需求制定可靠的灾难恢复计划。原文出处:IT系统容灾指南|HackerNoon原作者:alextray