当前位置: 首页 > 科技观察

需要采取什么措施来防止数据中心宕机

时间:2023-03-22 13:38:05 科技观察

日前,根据研究机构对数据中心运行情况的研究报告,一些数据中心宕机事件本不该发生。其停机的主要原因不是恶劣天气、计划外维护甚至电网故障等因素。相反,它是由某些组织的计划不周和维护不当造成的。从航空公司到互联网巨头,主要用户和企业都成为中断的受害者,并感受到了可预防的数据中心中断的影响。然而不幸的是,这种情况并不少见。根据数据中心行业厂商对欧洲国家IT和数据中心管理人员的调查显示:27%的受访者表示,他们在过去三个月中经历了过长的中断,这对组织的业务造成了负面影响。绝大多数受访者(82%)认为大多数关键业务流程都依赖于IT服务,74%的受访者表示数据中心的健康状况直接影响IT服务的质量。组织业务主要取决于IT服务,而IT设备则取决于数据中心的功能。超过四分之一的数据中心经历长时间中断这一事实表明,行业层面出现了问题。(1)提前计划以防止供电中断正如关键业务流程依赖于IT服务一样,数据中心本身也必须提供弹性以保持业务运行。它是任何企业风险管理战略的核心资产。船员失误、备用发电机未启动、惊慌失措的决定等。这些错误都可以通过适当的程序和完善的电力系统设计来避免。然而,组织往往没有遵循数据中心电源管理的黄金法则:行动得到结果,结果需要行动。组织需要灾难恢复流程,并在重启数据中心时明确定义要采取的步骤。如果数据中心发生中断,工作人员可能会在旅途中承受恢复正常服务的压力。毕竟,机组人员的主要目标是尽快恢??复正常运行。因此,灾难恢复过程有助于避免长时间中断。(2)提高员工技能事实上,数据中心缺乏对电源管理的认识和理解是一个普遍的问题。三分之二参与调查的数据中心专业人士表示,他们对电力安全没有足够的信心。在组织能够掌握电源管理(从UPS维护到电池检查)之前,可能会出现更多与电源相关的中断。然而,劳动力的技能在提高电力可用性方面起着至关重要的作用。许多组织发现很难招募和留住相关的专业知识或人才,无论是在节能设计、持续的消耗管理,还是快速有效地处理与电力相关的故障以避免和减轻停电方面。(3)更新和升级基础设施除了提高技能和确保电力外,数据中心基础设施本身也经常需要更新和升级以满足业务对效率、可靠性和灵活性的期望。在本次调查中,大约一半的受访者表示他们的核心IT基础设施需要加强,而近三分之二的受访者表示他们需要加强电力和冷却设施。电源管理正日益成为一种软件定义的活动。鉴于劳动力技能方面的差距,软件可以通过IT员工熟悉的仪表板提供电源管理选项,从而弥合IT部门与电源之间的差距,从而简化管理并实现电源基础设施管理的自动化。采用这项技术可以减少或消除数据中心停机时间。行业厂商纷纷向数据中心的虚拟化环境发展。IT和数据中心专业人员现在非常熟悉使用虚拟化来维护硬件。那么为什么不使用相同的原则呢?所有配电设计和相关的弹性软件工具都必须与主要虚拟化供应商的产品兼容,以促进基础设施的未来发展。这种方法将使数据中心专业人员能够持续维护系统,从而降低基础设施过时的风险。更好的准备和灾难恢复程序本可以防止许多中断的发生。数据中心行业用户必须从这些事件中吸取教训并采取必要的措施。因此,必须有效实施电源管理,以减少数据中心的断电事件。