当前位置: 首页 > 科技观察

关于公共云中的灾难恢复,您需要了解的内容

时间:2023-03-19 10:36:45 科技观察

如今,许多企业都在谈论他们采用公共云的计划,这些讨论通常围绕如何避免潜在的云服务中断展开。其原因是公共云服务确实会发生中断,虽然这些中断现在比以前少得多,但企业最关心的是降低中断风险。幸运的是,每个主要的公共云提供商都提供了构建高度可用环境的选项,这些环境可以恢复并在某种类型的中断中幸存下来。例如,AWS提供了四种利用多个地理区域的选项。这些选项(其他公共云提供商也可用)具有不同的价格,并提供不同的恢复点目标(RPO)和不同的恢复时间目标(RTO)。企业可以选择满足其恢复点目标(RPO)和不同恢复时间目标(RTO)要求和预算的选项。关键是公共云提供商可以帮助客户在其全球基础架构之上构建高可用性解决方案。下面简要介绍了这些选项,并回顾了使用公共云构建高可用性环境的一些基本原则。以AWS公有云为例,但原则适用于所有公有云提供商。首先,组织需要了解每个应用程序的恢复点目标(RPO)和恢复时间目标(RTO),以便为每个用例提供正确的解决方案。其次,没有一种通用的解决方案可以利用多个地理区域。企业可以根据他们的恢复点目标(RPO)、恢复时间目标(RTO)、他们愿意和能够负担的成本量以及他们愿意做出的权衡采取不同的方法。以AWS为例,其中一些方法包括:从备份恢复到其他区域,人们将环境备份到S3,包括EBS快照、RDS快照、AMI和常规文件备份。由于S3默认只将数据复制到单个区域内的可用区,企业需要开启跨区域复制到容灾区域。企业将承担在第二个区域传输和存储数据的成本,但在企业需要居住在其DR区域内之前,不会承担计算、EBS或数据库成本。权衡是启动应用程序所需的时间。在另一个区域进行热备份并将数据复制到第二个区域,业务将在该区域运行缩减版本的生产环境。此环境始终处于活动状态,并且大小适合恢复业务所需的最小容量。企业根据需要使用Route53切换到灾备区。根据需要将环境扩展到最大容量。通过这些选项,企业可以更快地恢复数据,但成本更高。多区域“Active/Active”解决方案,其中数据在两个区域之间同步,并且两个区域都用于服务请求。这是最复杂的设置和最昂贵的选择。然而,即使整个区域出现故障,停机时间也很少或根本没有。虽然上述方法实际上是一个灾难恢复解决方案,但这个方法是关于构建一个真正高可用的解决方案。成功的多区域设置和灾难恢复过程的关键之一是尽可能自动化工具。这包括备份、复制和启动企业应用程序。利用Ansible和Terraform等自动化工具来捕获环境状态并自动启动资源。此外,重复测试以确保您的业务可以成功地从可用性区域或区域故障中恢复。这意味着不仅要测试工具,还要测试其过程。