当前位置: 首页 > 科技观察

数据中心紧急停机技术

时间:2023-03-18 20:43:30 科技观察

数据中心需要全年不间断运行,时刻对外提供各种应用服务。数据中心里有很多电子设备,它们和人一样需要休息,否则迟早会出这样那样的问题。其中,紧急停机是数据中心自我保护的一种方式。显然,在关机前加一个修饰语“紧急”,将与关机有着完全不同的含义。紧急关机绝不能像关闭按钮或拔掉电源那么简单。如上所述,数据中心全年不间断工作。关闭数据中心内的设备,需要考虑这样的操作对整个数据中心业务的影响。关机方案,是否有回退机制等等,这绝不是切换电源那么简单。让我们详细谈谈数据中心的紧急停机。紧急停机是预先计划好的关闭部分运行设备的计划。紧急停机作为应急响应过程中的措施之一,是每个数据中心都必须考虑的问题。在很多特定情况下,数据中心需要紧急停机。例如,由于数据中心自身缺陷的暴露,或者数据中心所在区域发生地震、火灾等灾害,数据中心可能受到外界的严重威胁,而数据中心内的数据可能会损坏或毁坏。需要启动紧急停机,暂时关闭部分甚至全部对外服务,保护数据中心不受损害;数据中心里有很多电子设备,这些设备或多或少都有问题。这个世界上没有BUG。我认为我使用的设备没有问题,但我没有遇到任何错误。因此,数据中心一旦遇到这些设备BUG,往往需要对设备进行软件升级。如果补丁未修复,则需要升级软件版本。但是很多设备在不重启的情况下无法升级软件,需要紧急关机重启设备;数据中心内还有服务器、存储等设备长期运行,长时间运行不重启会积累大量内存垃圾,主动定期重启这些设备可以提高运行效率设备效率,主动重启设备也可以避免一些BUG暴露,避免BUG导致设备运行异常,影响数据中心业务。由此看来,紧急停机是数据中心运行中不可或缺的重要环节。每个数据中心都必须经历的一个解决方案,是对数据中心运行的一种主动保护。紧急停机需要做好三方面的准备,才能通过停机达到预期的效果。在一些紧急情况下,有紧急停机预案,往往可以使数据中心免于灾难。首先,关机过程必须在关机前完成。在数据中心中,应用与应用、应用与设备、设备与设备之间普遍存在依赖关系。必须按照固定的关机顺序执行,避免紧急关机对数据中心造成损害。例如,在计划关闭网络设备之前,应切断或关闭数据库服务、存储服务、支付系统等各种重要应用,然后关闭外部访问入口、计算节点、管理节点,避免直接关闭网络设备。提供服务的系统出现故障或数据丢失。完成这些步骤后,关闭网络设备。一般流程应该是先关闭应用层服务,再关闭底层数据传输设备。最后是物理链接。应先停机,紧急停机前应固化操作步骤,然后依次按步骤操作。同时,需要估算每个操作步骤的时间消耗,确定每个环节花费的时间,控制紧急停机的每个环节。一旦不符合预期,就必须启动相应的回滚或规避计划。既然叫紧急停机,更多时候是突然临时停机,难免会出现异常执行,与原先预期的结果不符。这时候就要根据实际情况灵活应对。紧急停机前应备好备品备件,对关键设备进行备份,部分配置应提前准备好,出现异常情况直接更换备件。在损失不可避免的情况下,一切决策均以关键数据的划分结果为准。在这种情况下,就考验数据中心人员的智慧了。停机时间长短也是必须考虑的重要因素。很多情况下,在完成关机步骤后,往往需要密切关注数据中心的外部情况,以确定重启的时机。有时紧急关机会很快重新启动。关闭的时间长短取决于紧急情况的具体情况。,被评估以确认关闭持续时间。其次,关机执行过程中,每一步执行完后,需要确认执行结果,同时与原先的预期进行比较,看是否达到预期结果。当发现情况与设定情况不符,或出现失控情况时,需要立即启动回退计划,恢复原来的运行状态。***、紧急关机后,根据设定的关机时长,需要再次开机。启动后,需要密切关注数据中心的运行情况。启动所有设备是不够的。很多情况下,评估数据中心是否正常稳定运行需要几天的时间。一旦发现仍有问题或风险,可能需要进行二次紧急停机。从紧急停机的三大环节来看,停机前要做的工作最多,也是最重要的,这也是紧急停机的一个重要体现。应急停产策略制定后,应定期组织应急演练,及时修复缺陷,确保最终的应急停产方案不出现漏洞。紧急关停计划不是一成不变的。修改。这样定期组织应急停车演练非常重要,只有这样才能发现预案中的不足之处。任何数据中心都不愿意出现紧急停机的情况,但一旦必须做出停机决定,就必须提前做好充分的准备,并有详细的紧急停机计划,避免人员在紧急停机时手忙脚乱。这种无组织、混乱的紧急停机往往会给数据中心带来严重的损失,达不到保护数据中心的目的。