当前位置: 首页 > 科技观察

灾备方案设计参考:AWS灾备白皮书

时间:2023-03-22 17:03:07 科技观察

最近在做灾备方案,了解到AWS有灾备白皮书。所以,今天简单看了下AWS灾备白皮书,里面介绍了几种基于AWS的灾备方案。这些场景不仅适用于基于AWS的系统,也适用于通用系统。现重点总结一下,有兴趣的同学可以阅读原文。容灾的两个术语白皮书提到容灾的两个术语(行业术语)RecoveryTimeObjectiveRecoveryPointObjective恕我孤陋寡闻,之前也参与过容灾的设计,不过这两个还是第一次术语知道。这两个术语在维基百科上有定义,不知道是AWS开发者添加的还是很久以前就存在的。据说我们公司的每一款产品也都有容灾解决方案,但是还没有人能够总结出这么准确的行业术语。因此,亚马逊成为该领域的领导者是有道理的。1、RTO耗时恢复:备站点在主站点故障后恢复到OLA(操作级别协议)所花费的时间。也就是主站点发生故障后,备份站点恢复到正常服务状态所需的时间。从用户的角度来看,RTO是系统服务中断时间。例如12:00主站点故障,系统容灾RTO为8小时,则系统必须在20:00之前恢复正常提供服务。2、RPO恢复时间点:主站点发生故障后,备份站点可以恢复过去哪个点的数据。换句话说,与主站点相比,备用站点恢复时丢失了多少数据。从用户的角度来看,RPO期间丢失的数据量。例如主站点在12:00发生故障,系统容灾的RPO为1小时,那么系统恢复后,其数据必须到11:00。也就是说,12:00到11:00之间的数据是允许丢失的。所以,以后在评估或者设计容灾方案的时候,首先要问这两个问题:RTO值是多少?什么是RPO值?在灾备方案白皮书中,按照RTO和成本对灾备方案进行排序,称为灾备方案图。备份和恢复备份和恢复是最常见的灾难恢复方法。它将主站点上的数据备份到与主站点隔离的存储设备中。当生产环境出现故障时,可以在备站点恢复数据。AWS提供了一系列高可靠的存储服务:AmazonS3,简单的对象存储,可靠性9分中有11个AmazonGlacier,如果你觉得S3太贵,那么AmazonVTS,虚拟磁带存储,如果你想节省巨大而长久的——术语数据,使用亚马逊的这些存储服务,配合备份和恢复工具,可以实现容灾系统。备份图还原图#p#PilotLightPilotLight是一个设备,这是一个类似于点火器的设备,比如煤气灶的点火器,可以通过点火器点燃煤气灶,然后就可以做饭了:)PilotLight用在容灾系统中,我们想表达的是在备站点部署一个服务,通过它可以运行整个系统。准备备站点安装数据库服务,并与主站点建立数据复制关系。将主站点的操作系统或文件做成AMI,备站点恢复时直接加载为EC2。定期测试备用站点的恢复[5]恢复使用AMI创建EC2并根据情况增加数据服务器的配置添加额外的数据服务器(如果需要)配置系统(部分配置不会通过AMI导入生效)将DNS映射到备站点的IP地址WarmStandbyWarmStandby是在备站点复制安装主站点,但它们之间还是有区别的:备站点运行但不对外提供服务。备站点的服务器配置是最低配置(这些服务器可以运行在最小规模的AmazonEC2实例上)(AmazonEC2的集群好霸道~~)准备备份站点到安装数据库服务并同步数据。备份站点适用于EC2安装和应用程序的最低配置。定期执行应用程序升级和补丁,以保持与主站点的一致性。增加EC2数量(横向扩展)(扩展与主站点一致)增加EC2配置(纵向扩展)(扩展与主站点一致)增加数据库实例数量(扩展与主站点一致)site)切换DNS映射到备站点#p#MultiSiteMultiSite是指双活容灾方案。主备站点同时对外提供服务,DNS根据负载情况决定将请求转发到哪个站点。准备将主站点系统复制到从站点,服务器和配置相同。在DNS上配置路由策略恢复手动切换(switchingonDNS)或者配置DNSfailoverFailBack当主站点故障修复后,我们还需要将服务切换到主站点。此过程称为故障回复。不同的灾难恢复解决方案具有不同的故障恢复方法。备份恢复冻结备站点修改操作,恢复备份数据到主站点,切换DNS指向主站点,解冻指示灯,暖备,多站点冻结备站点修改操作,将数据复制方向从primary改为standby,切换DNS指向解冻主站点