当前位置: 首页 > 科技观察

数据中心被毁后如何恢复!!!

时间:2023-03-22 10:37:29 科技观察

“数据中心”是互联网、云计算、大数据等行业的重要基础设施。虽然很多公司有业务连续性计划或灾难恢复以降低一系列业务风险,包括数据中心计划,但有些公司没有,或者即使有,也过于笼统。在制定数据中心灾难恢复计划时,您的目标是保护公司在信息技术、通信和人员方面的投资。一旦受到威胁,您的数据中心要么完全不受影响,要么完全被摧毁。在对数据中心决策者的广泛调查中,业务分析公司451Research发现,82%的受访者表示他们有某种形式的灾难恢复(DR)计划,这意味着近五分之一的组织有灾难恢复(DR)计划。DR)计划未到位。研究发现,93%的组织都有业务连续性计划(BCP)。随着数据中心面临的风险越来越大,如今企业广泛使用灾难恢复解决方案,没有理由和借口不为它们制定计划。如何预防电气火灾,是企业必须要了解的一个层面。首先,在数据中心添加一个声音报警器和两条分解总线。IR操作在DR站点恢复,这仅适用于优先级最高的系统。有了便携式空调、临时通讯和小型不间断电源,我们就可以恢复手机通讯。更换大开关烧坏的部分花了数周时间,但我们仍然需要知道出了什么问题,以免再次发生。以下是我们发现的六个故障点,我们都记录在了灾备报告中。隐患一:空调设备虽然我们配备了多台空调设备,但这些设备都共用一个总机。只有两个冗余单元和一套独立供电的不间断电源(UPS)机房单元,设计者认为这样想是合乎逻辑的,但在实践中却否定了备份的想法。我们无法正确设置主断路器的跳闸电流,工程师和承包商也没有调整断路器。所以当空调出现问题时,主断路器跳闸而不是单独的分支断路器跳闸,这浪费了80%的制冷资源。红外线扫描可以在总机里进行,但只有部分空调可以。该设备在满载情况下没有过热,因此我们在测试期间没有注意到连接松动。第二连接配电板与第一连接配电板相同,在同一电气柜中。这样做的目的是为了满足财政预算。因此,两条电源总线彼此相邻。当一个爆炸时,它也会引爆第二个,然后我们就什么都没有了。隐患点二:数据中心设计在灾备报告中,我们需要检查的另一项是数据中心设计。由于整栋楼使用一台发电机,转换开关设置在地下室配电盘上方。没有感觉到即将发生的电源故障,但是损坏的配电盘会阻止我们。共享一个生成器,我们应该在数据中心设置多个自动切换器来提供数据转换。这样,如果数据中心被带电,而建筑物内的其他设备不受影响,发电机就会启动,数据中心将恢复到应急电源。我们反对电气室离数据中心太近,因为我们不希望电气室参与计算环境。我们忽略了这一点。电气室空调设备运行正常,数据中心设备未运行。此时电气室会产生正压。当门打开时,爆炸产生的热量和烟雾逸出。隐患点三:烟雾探测器的问题预警型烟雾探测器会第一时间识别出危险,也可以控制气体灭火,虽然设置方法不正确。因此,探测器在发现危险源时并不发出警报,而是根据探测到的烟雾触发释放气体的功能。烟雾颗粒还会污染其他正常运行设备的过滤器。唯一的好消息是,电气室中的A/C单元与两个备用单元在同一电路上,因此可以继续运行。如果不进行冷却,UPS会迅速升温,从而导致原机房关闭。应该旁路UPS来维持主机的供电,但是我们在测试的时候发现旁路接错了。只有一台空调机组,损坏的可能性非常高。隐患四:优先级UPS可以通过网络进行顺序服务关系,但是由于优先级问题的存在,这个想法一直没有实现。我们还了解到,不需要紧急断电按钮,因此不会有“高架地板”,也没有使用限制。工程师指出了业内一些非常危险的按钮,“因为每个数据中心都会有一个危险按钮”,但没有包括任何保护按钮以防止过早使用。数据中心经理将面临无数具有挑战性的任务。我们必须学习如何对实际过程中将要接触的任务进行优先级排序。隐患5:DCIM告警当我询问时,数据中心基础设施管理(DCIM)工具会提醒我主要警告,但唯一的限制是ASHRAE的允许温度,高于数据的实际冷却温度中心。由于冷却温度设置是基于之前的推荐温度值,低于推荐温度,在触发警报之前已经宣告了故障,我们仍然需要花费大量时间进行救灾和抢修。DCIM还会显示我们设置的10台空调中有8台宣告设置故障,同时也会说明故障原因和影响因素,我们没有为DCIM系统购买机械设备模块,所以当冷却装置安装失败时没有警告信息。这也记录在灾难恢复报告中。隐患六:缺乏培训和标准在实际工作中,我们需要进行多次DCIM培训。GUI非常复杂,会提供很多详细的数据,让我们很难识别。我们试图重新设计GUI,以便我们可以更清楚地看到它,但是可配置性非常低。IT应该包括在重要系统的选择中,并且在购买之前,进行同行测试以明确其他软件是如何衡量的。我们很清楚这不是III级事件,正式认证会披露这些漏洞。该公司避免了外包备份和DR站点带来的许多麻烦,因此开发和测试计划的失败是我们自己的。作为容灾报告的一部分,我们花了很多时间非常仔细地审查了DR站点合同,并根据审查过程中发现的问题提出了一些改进建议。我们在制定DR计划方面也得到了一些帮助,并且通过转移操作,我们现在能够每年进行两次测验工作。数据中心损坏后的容灾解决方案的实施应具有灵活性和可扩展性,以应对各种损坏场景。本文将提供一个数据中心清单,并建议在灾难发生后可以采取的行动。该清单将使灾难恢复更加容易。当您检查破坏性事件对您的数据中心造成的后果时,请务必参考此数据中心清单,或根据您自己的要求对其进行修改。一旦您完成了对损坏情况的初步评估并对您的员工所在的位置感到满意,就可以开始执行您的灾难恢复计划。制定数据中心灾难恢复计划时的一些假设数据中心灾难恢复计划仅关注数据中心的设施和基础设施,例如其物理位置、结构、安全、能源、环境系统及其人员。您不仅要考虑数据中心运行的部分,还要考虑支持它的人员。这意味着在制定灾难恢复计划时,必须满足以下条件:1.数据中心技术和管理人员,包括所有班次2.数据中心架构(如物理基础设施、建筑物、出入口位置、高架地板)面积)3.建筑位置(例如,进出路线,与高速公路、火车线路、机场的距离,与燃料储罐的距离)4.发电(例如,商用电源、备用电源系统)5、电源保护(例如接地和接、避雷针、线路调节器、浪涌抑制器)6、环境(如供暖、通风和空调)7、关键系统(如服务器、配电设备、VoIP系统、呼叫中心系统)8、网络设备(如、电缆、连接器、路由器、铜缆和光纤线路、电缆架)9、安全(物理入口和信息安全)10、工作空间(例如办公室、会议室、办公室隔间)隔间、家具、照明)11、消防(例如火灾探测器、烟雾探测器、灭火器、FM200灭火系统)12、建筑地板和墙壁(防火墙、高架地板)13、公用设施(例如水、电、下水道、通讯)提高面对突发事件的反应能力作为灾备计划中及时反应要求的一部分,我们在制定反应行动计划的时候,如果房屋是租赁的或者自有的,那么就需要与房屋管理部门或设施管理部门协商,此外,IT部门也需要沟通。制定应对方案后,还需要进行审核,充分与内外部资源沟通,确保各部门万无一失。在设计容灾方案时需要考虑的因素如下:1.与内部技术团队、应用团队、网络团队等不同IT部门的关系。确保每天使用数据中心设施的所有团队部门都处于灾难响应过程中。2.与外部股东的关系,例如制造商和服务提供商。3.如果公司的油气田办公室,需要考虑与其他办公室的关系,因为他们也可能是灾难恢复计划的一部分。例如,改善另一个数据中心的机房等。4.架构相关的文件,如施工图、平面图、系统视图、网络拓扑、设备配置信息等。灾难响应的制定需要考虑以下几个方面:1.管理层对数据中心最具威胁的方面的理解,例如火灾、人为操作不当、停电、系统故障和安全问题。管理层一开始的假设可能与现实不符,但后期需要迅速做出正确的改变。2.管理层需要了解数据中心中最容易出问题的环节,例如旧的备用电源保护系统。3.之前数据中心故障的结果,比如如何处理,我们从中学到了什么。4.管理层可以接受数据中心停机的最长时间是多少?5.业界现有的处理数据中心停机的准则是什么?6、借鉴其他数据中心容灾经验。7、训练有素的数据中心应急响应团队处理突发事件的能力。8.主数据中心和备数据中心服务商的应急能力和两种数据本身的应急能力。如果你以前用过,在使用过程中有没有遇到什么问题?还需要知道服务的成本和服务合同的当前状态。