当前位置: 首页 > 科技观察

如何减少数据中心宕机事件的影响

时间:2023-03-14 19:23:02 科技观察

大多数人都不希望在生活或工作领域出现连接中断,尤其是在当今的数字化生活方式中,因此数据中心基础设施变得越来越重要。对于很多消费者来说,他们希望自己的数字产品和服务能够继续工作,所以当出现断电时,他们会抱怨甚至抱怨。以近期达美航空、西南航空和英国航空等航空公司的数据中心中断为例,其中一个简单的电力故障或不当的维修程序就会对服务器造成灾难性损坏,并使航空公司损失数亿美元数万名乘客滞留在世界各地的机场.这些大规模的中断总是成为头条新闻,数据中心中断比人们想象的更常见。根据UptimeInstitute的调查,25%的受访企业在过去一年中经历过数据中心中断,无论是在他们自己的数据中心还是在服务提供商的网站上。此外,90%的数据中心和IT专业人士表示,他们的业务主管比一年前更担心数据中心中断。然而,并非每一次停机事件都像航空公司停运那样具有破坏性或公开性,但停机事件可能会给企业带来经济损失。根据UptimeInstitute的一项调查,只有60%的企业将衡量停机成本作为业务指标,而在2017年,衡量停机成本已经成为所有企业必须采取的措施。考虑到几分钟或几小时的停机可能造成的经济损失,IT专业人员和设施经理将更加关注基础设施维护。当然,了解数据中心的风险和采取措施预测潜在风险是两个截然不同的问题。那么,企业可以做些什么来减少数据中心停机事件的影响呢?效率的定义每个数据中心管理者都希望他们的数据中心能够高效运行。效率是指在不产生不必要成本的情况下,为数据中心内的IT设备提供电力和冷却以满足IT需求。从更业务的角度来看,数据中心必须能够在满足业务需求的同时保持这种平衡。这意味着数据中心基础设施、计算能力和性能需要有效扩展,并且经常要降低停机风险。然而,对于当今的大多数数据中心而言,缺乏对数据中心环境变化的影响的考虑,例如新技术的引入,这些都没有被考虑在内。对于IT团队来说,除了知道他们的部署将使用的数量、空间、网络和电力之外,他们通常不了解甚至不关心对数据中心环境的影响。如果IT效率受到负面影响,管理层将立即做出反应。问题是IT团队和数据中心管理者这两个团队各自独立运作,很多企业部署DCIM技术的目的是通过数据中心的业务打通数据和流程之间的鸿沟。模拟每个事件的可能性,从在机架上安装单个挡板到将设备的功率增加到300kW,如果准确预测,其间的所有变化都会影响数据中心的弹性。这不是想象的,而是实际存在的,它采用工程仿真的形式,允许数据中心设施管理人员通过创建虚拟原型对现有设计进行故障排除并分析未来数据中心配置的假设场景,并可以在现场进行离线实验。环境。这意味着当业务需求出现时,数据中心可以以绝对的弹性处理工作负载,或者可以减少这些需求,直到基础设施升级完成。数据中心人员应该主动应对这一变化,以便可以消除停机事件或将其减轻到无害的水平。从运行连续性的角度来看,还可以模拟其他事件,例如,如果突然出现电源故障并由备用电池供电,是否有任何关键系统能够离线?该协议会对数据中心产生不利影响吗?如果是这样,如何减轻损害?所有这些问题以及更多问题都可以通过仿真来解决,帮助数据中心经理制定战略,使关键硬件能够以确保其坚持到底的方式进行定位。如果90%的数据中心和IT专业人士表示他们的业务主管比一年前更担心停机事件,那么运营弹性是IT团队和数据中心设施经理的首要任务,而运营弹性这可以通过上面提到的策略和工具。至于另外10%的管理层,他们不关心数据中心的中断吗?如果他们的团队竭尽全力防止停电并且发生了,他们会很快改变主意。因为他们了解这对公司声誉和业务运营底线的影响有多大。