当前位置: 首页 > 科技观察

如何迎接新时代数据中心设施运维的新挑战?

时间:2023-03-16 00:18:59 科技观察

新时代的数据中心数据中心在中国兴起才10多年,但明显经历了几个阶段:第一阶段(-2005年)是普通机房阶段,有UPS供电、空调制冷,放IT设备就可以看成是数据中心;第二阶段(2005-10),随着单机柜IT设备功率的增加,强调气流组织、地板送风、双UPS供电;第三阶段(2010-15),进一步优化气流组织、冷/热通道关闭、模块化机房、Tier3/4级安全;第四阶段(2015-),互联网应用、大数据、AI、云服务快速增长,导致数据中心快速扩张和集中,数万机柜的超大型数据中心成为主流,对能效的追求和创新应用发展到极致,自然冷却、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用。当前数据中心呈现出以下特点:规模超大,机柜数量超过5000个,部分规划已超过10万个机柜;之前的一万平米的数据中心都不好意思称自己为大数据中心。耗电量大,单座110/220KV变电站已不能满足供电能力,需要多座变电站供电。并提高供电电压,10KV供电直达机房。一个数据中心园区有多个变电站。用水量大,冷水机的应用导致冷却水大量蒸发,有的每月用水量超过30万吨。楼内外管网密布。设施层面的新技术应用很多,如自然冷却、风墙、液冷、洞穴、水下、集装箱……运维面临新的挑战针对数据中心在数据中心的上述特点新时代,设施运维管理面临的挑战是:人、组织、效率的变化。过去,10,000平方米以下的数据中心需要人工巡检2-4小时。现在几十万平方米,人工巡检一整天都不够。有必要划分较小的责任范围。需要更多的运维人员,庞大的机构增加了管理难度,降低了效率。由于运维人员分布在不同的区域,相互间的交流减少,容易被堵,心情变差。电压等级越高,安全风险越高。过去运维人员接触的是低电压(1000V以下),现在供电设备、发电机、冰箱都是高压供电,维护安全要求提高了,但是安全人员的意识、工作习惯、个人防护、安全教育等,不得全部跟随上级。新应用较多,技术能力不足。各种新技术、新应用层出不穷,对运维人员的培训相对较少,实际运维实践不够,技术积累不够,都会影响出现问题时的处理效果。运维人才供给不足。面对快速扩张的超大型数据中心,动辄上百名运维人员的需求是市场无法提供和满足的。但是基于以上原因,运维人才的培养和成长周期比较长,以至于大家互相挖角,争夺有限的优秀运维人才,导致运维成本增加。规模集中导致风险集中,事故影响增大。日前,亚马逊数据中心事故导致全球范围内大规模服务和应用中断,损失惨重。因此,运维管理的压力就在前面。