1。总结在规划设计数据中心时,机房的电力需求和热负荷往往通过“规划机柜数量”ד机架平均功率”来考虑。但在实际使用中,IT设备需要按照网络和业务的原则进行部署,并不是均匀分布的,而且设备的功耗也会在不同时间出现波动,使得数据中心的实际负载出现偏差脱离设计指标,导致机房供电过载或过热的风险。因此,运维人员需要监控IT设备的实际运行参数,分析机房的运行状态,及时排除可能存在的隐患。同时,在实际运维中,合理配置机房电源和机架,可以有效避免机房资源浪费,提高资源利用率,降低PUE。本文介绍一个机房案例,简要介绍数据中心规划与实际运维的区别,以及通过变更解决机房风险的过程。2、情况介绍如图1所示,某数据中心A机房模块计划安装61个服务器机架,单个机架平均功率为4.4kW,机房总功率为268.4kW。机房IT设备由1000kVAUPS系统供电(单台500kVA2+2配置),分配给机房A模块的功耗为300kW。机房配备3台冷冻水精密空调,2用1备,单机制冷量160kW。不考虑人员和围护结构的散热,并考虑20%的冷量冗余,该模块的冷量阈值约为266.67kW(160kWx2/1.2)。图1某机房机架布局图机房投产时实际部署了6个网络机柜和55个服务器机柜。机柜内IT设备及用电量如表2-1所示。机房实际部署网络设备134台。服务器设备550台,一共684台,预计总功耗为267.6kW。机房机房机头柜的输入断路器、输出微型断路器、PDU容量均满足设备要求。表1机柜内IT设备部署及功耗估算显示。可以看出机房实际负载在24小时内大部分时间在255-265kW之间,在机房供电和制冷量范围内,但负载从1开始增加每天凌晨00点,到凌晨2点左右达到峰值,比平均功率高出机房制冷量阈值7kW左右,然后逐渐下降,在3点左右恢复:00,超过制冷量阈值约1小时。图224小时机房负载功率曲线该曲线显示,IT设备在高流量时段的耗电量超过了之前预估的典型功率,机房整体耗电量也超过了设计值。冗余设计虽然没有造成配电系统过载,但还是略微占用了其他机房模块的配电容量,如果长时间运行在高耗电状态,可能会导致实际温度过高机房面积上升,或功耗差异造成局部热点,进而带来运营风险。同时,电力资源与制冷资源的不匹配也会导致机房资源的浪费。3、解决方案由于数据中心已建成投产,基础设施扩容条件未提前预留,机房供电、制冷门槛无法调整,部分IT设备只能迁移至其他机房模块。根据图2数据,机房峰值功耗为274.5kW,超出理论制冷量阈值约7.5kW。根据实际测算,服务器设备的峰值功率约为462W,至少需要搬迁16台服务器设备才能保证机房整体负荷满足要求。由于IT设备在机房以TOR组的形式部署,为了不浪费网口和实现综合布线的一致性,设备迁移必须以TOR组为单位进行。机房最小的TOR组配置了两个服务器机柜。该组共包含4台网络设备和20台服务器设备。总功耗约为9.8kW。迁移一个TOR组即可满足需求。在机房的规划上,B机房的机架建设要晚于A机房。设备迁移前,B机房设备的上架率和实际功耗都比较低。目前空柜5个,设备设计制冷量267kW,备用功率300kW。设备实际功耗190kW,符合迁移条件。经综合评估,确定机房04-13、04-14机柜(如图2-1红框所示)共24台IT设备搬迁至相邻机房低设备上架率和负载率B机房。A、B机房采用同一UPS系统供电,迁移后两机房负载均在供电和制冷阈值范围内。迁移后机房峰值用电量预计降低9.8kW。4、设备迁移机房设备迁移,首先要完成相应的准备工作,如:提前规划设备在B机房目标机柜的位置,提前布线并完成机柜PDU测试,屏蔽监控并提前通知相关人员完成业务交接等待。准备工作完成后,相关运维人员关闭待迁移设备承载的应用和系统,关闭IT设备,拔掉相关线缆,拆除设备并移动到目标机柜中B机房为货架。设备安装完成后,连接电源线,启动设备,观察等待设备启动并正常运行,连接光纤和铜缆,检查配置并完成系统的验证等。设备全面工作,解除告警掩码,更新设备部署信息。此外,应为设备迁移准备风险计划。设备故障、配置错误等因素都可能导致失败。为保证回退所需的环境,拔出光纤时要注意保护,避免弯曲和盖住光纤帽。如果设备迁移后无法恢复,则将其送回A机房原位,上电,恢复综合布线连接。5、效果验证设备迁移完成后,机房负载功率曲线如图3所示:图3迁移后24小时机房负载功率曲线由上图可见。在音量阈值内。风险基本得到解决。同时,B机房的设备可用率有所提高,动力和制冷设备的利用率有所提高。由于机房的运行是一个动态的过程,运维人员会持续观察机房的各种参数。机房的建设是在规划设计的基础上进行的。机房投入生产运行后,经常会出现实际供电、负荷变化等因素。受其影响,设计指标可能无法完全实现。因此,在机房的实际运行中会出现很多困难。对安全操作构成各种威胁的预测风险。在实际运维工作中,运维人员应从实际出发,对机房内的各种设备进行实时监控,及早发现和处理风险,对最终的实际结果负责,合理分配机房在技术论证设备充足的前提下,充分利用闲置资源解??决存在的问题,从而优化PUE,为机房安全高效运行保驾护航。
