当前位置: 首页 > 科技观察

数据中心灾难恢复的最佳实践

时间:2023-03-23 01:46:51 科技观察

今天,数据中心运营商努力实现数据中心的高可用性,全天候工作以确保100%的正常运行时间。他们部署冗余设施以最大限度地降低风险,严格规划和测试以确保连续运行,并采取预防措施保护其基础设施免受环境威胁。但即使是最好的计划和准备也可能在自然灾害或意外事故中出错。事实上,在一些极端情况下,提前规划和准备仍然无济于事,灾难恢复成为确保企业在重建数据中心运营的同时保持功能的重要组成部分。在任何灾难情况下,时间都是至关重要的,因此数据中心人员需要知道在事件发生后的几分钟、几小时和几天内采取适当的行动。工人的安全是最重要的因素,因此一旦确定所有人员安全,就应开始以下恢复活动:主动监控所有关键设备是否存在隐患-请参阅发电机、油和过滤器等活动设备。例如,在恢复工作可能需要数天甚至数周的情况下,监控燃料供应并了解发电机在没有备用柴油的情况下运行了多长时间至关重要。在自然灾害紧急情况下,医院、急救人员和其他公共安全组织必须首先获得燃料供应,无论数据中心是否有燃料供应合同。在指定时间段内增加现场访问——这将帮助工作人员发现任何缺陷,例如漏水或设施损坏。确保每个员工都有合作伙伴提供支持和帮助也很重要。确保员工轮换以减轻现场员工的压力——为给员工提供充足的休息时间,机构可考虑从其他未受影响的数据中心招聘员工或委托第三方供应商进行部分恢复工作。建立通信协议以提供关键更新和站点反馈——在所有区域和系统都经过验证后,定期举行简报会,以告知员工和管理人员任何数据中心或站点的影响。在灾难恢复情况下,从CIO到员工的每个人都可以发挥作用,因此所有相关方都必须及时了解正在发生的事情。监控输入电力——由于向数据中心供电的电网可能会受到影响,数据中心电力将中断或降级,因此联系电力公司了解数据中心关闭的合理安全时间非常重要电网电源正常备用发电机。并重新连接到电网。应用经验教训——在时间允许的情况下,尽快开始编写和记录经验教训和最佳实践,为下一步做准备。虽然自然灾害是不可避免的风险,但通过正确的灾难恢复计划,数据中心运营商可以最大限度地减少这些灾难性事件的影响,并快速安全地恢复运营。