当前位置: 首页 > 科技观察

机房运维:核心机房停电应急预案

时间:2023-03-20 16:56:48 科技观察

核心机房的电力保障一直是维护系统的重中之重。通过实施应急发电演练,建立了可靠的应急预案机制,最大限度地降低电力中断对电网传输质量的影响。现分享核心机房停电应急预案,希望分公司尽快建立统一指挥、责任明确、反应迅速、处置有效的机房保障机制。组织架构:分管领导、工程维护、网络监控、网络运维、质量管理等相关人员。机房供电系统说明:1、机房供电为二路三相四线供电,进线电缆规格为:RVV50*4+16*1铜芯护套线。2、机房供电系统采用三级防雷系统,三级防雷分别位于电源进线端和UPS输入前端。3、机房内有两台60KVA-UPS电源,均正常运行。4、机房现有设备柜均已编号,采用UPS电源和市电供电。每个机柜都有一个独立的20A空气开关。空调、墙上插座开关、应急灯、照明灯等都是单独接上电源的。5、运行中UPS电源所带负载在逆变运行状态下可正常工作约4小时(已通过UPS放电测试)。一、核心机房停电预案1、接到停电通知的情况:1)计划停电通知必须保证综合部、工程维护机房管理部对口人员收到通知(对口联络人提前在物业处备案),机房管理员收到计划停电通知后升级到调度中心发送信息,同时发送邮件通知相应的应急小组成员。并电话通知责任组长和责任组长,确保停电时间和可能发生的情况已经收到。2)机务部发电应急预案组成员通知发电预案提前做好机房发电预案的要求,将相应的发电机、连接线路、人员安排到位,执行各司其职,随时到场做好发电准备。确保停电期间用电安全和机房用电保障措施,提前安??排相应人员采取措施保证用电。3)计划停电时间开始后立即启动应急发电运行,并按机房发电运行步骤实施分步供电,恢复市电保障。并进行现场值班和设备工作确认,确保一切正常并致电调度中心和维修系统负责人。2、在没有接到任何通知的情况下突然停电:确认停电线路、停电时间、停电时间等要素,启动核心机房发电应急预案。1)值班网管工作流程:(1)值班网管监测核心机房断电,第一时间通知工程维护部、网络部、运维部应急组长尽可能。信息传达给工程维护部机房管理员(一主一备),告知停电开始时间。要求在停电后5分钟内将信息传达给调度中心和各应急小组组长。如果无法联系到您,请上报给负责领导-维护部门的经理。(2)网管电话通知停电信息后,下达命令,确保应急小组所有成员都能收到停电信息。然后检查机房内的设备,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等,检查是否受影响。同时启动机房降温措施(降温方案:初期安装排风设备,增加大风机排风形成热流降温)设备正常运行,每15分钟报告一次电源状态。2)运维部应急工作流程:⑴接到故障通知后,运维应急同事第一时间赶到停电现场,并到现场配合网管/工作维护部门检查设备和仪器,保证客户服务语音系统,并响应紧急情况协助发电。⑵现场配合机房降温、散热措施的落实,实时查看网络设备工作情况。3)运行质量管理应急工作流程:(1)调度中心值班人员收到网管监控调度信息后,记录故障信息并第一时间通知相关应急人员,并通报应急情况通过电话询问团队领导是否知道。⑵检查客服调度系统设备的操作系统,尤其是语音系统级座席电脑,如有问题,如发现工作系统异常,与运维应急人员沟通组及时检查处理。⑶实时关注故障工单流程的进度登记,配合应急小组出动人员。4)工维部应急工作流程:⑴机房管理员第一时间赶到停电现场,同时电话与供电公司、物业沟通,询问停电原因,是计划停电还是突然停电,预计停电持续时间,将明确的咨询结果反馈给应急小组成员,并通过电话联系物业传达申请发电的需要。⑵工程检修组应急小组组长接到时间后,于***时间赶往停电现场,同时派出发电应急小组成员,安排***时间到达现场开展工作,升级通知主管,对口集团维修中心上报信息。⑶工程维护应急小组成员接到停电时间后第一时间赶往停电现场,要求30分钟内到场(机房附近的人去现场,同事远的可以打车到现场),先去同事配合网管运维同事启动应急发电前的准备工作:发电前连接线路布置、接线、油/电/水回路检查确保正常发电。确保一切就绪,并确认可以进行发电操作后,按照发电操作流程进行发电,恢复市电。⑷网管将监测到的停电相应信息和级别同步发送给运行质量管理部调度岗,调度岗将相应信息通知工作维护、运维、维护等相关同事。联网,并报告工作维护主管了解。5)应急机房发电运行流程:(1)机房电力系统包括空调制冷、主/备UPS主机、照明系统、客服调度系统四个方面。(2)发电前,从四个方面考虑系统设备的功耗。为保证发电机正常驱动,不能进行同步供电,必须执行优先恢复步骤,确认发电机正常工作。发电前,关闭需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”市电输入总开关。防止发电机在同步启动期间失去功率保证。⑶启动发电机,检查发电机输出电流是开还是关,等待发电机稳定运行。第一步启动空调制冷系统市电输入开关,运维应急组成员重启空调主机(需要市电恢复后才能重启空调))观察空调制冷是否正常。第二步,启动UPS主设备的市电输入开关,观察发电机是否稳定运行,UPS主机是否稳定运行,网络设备是否正常工作。第三步,启动客服系统市电输入开关,包括(客服电脑、UPS设备、空调制冷等),观察发电机稳定运行和设备恢复情况。第四步,启动备用UPS设备,市电照明市电输入开关,观察发电机稳定运行,备用UPS主机稳定运行,网络设备正常运行。(4)发电机启动,市电输入正常后,网管会关闭冷却系统的通风设备,并会同运维同事对所有设备的运行情况进行全面检查,确保设备运行正常。⑸发电机开始正常运行后,应急维修组安排专人到场,及时关注发电机油量情况。同时与油品供应商确认配油要求和时间要求,实时与供电部门确认市电恢复时间。6)停电突发事件的预防:(1)网管确认停电期间机房UPS工作组和设备组的工??作状态。主备UPS切换是否正常,市电中断时UPS是否启动供电保护。⑵值班网管对机房所有设备进行全面检查,确保所有设备均有主备电源,UPS已保证市电中断后设备正常运行。同时观察机房温度,看温度是否突然升高。(3)停电后,UPS处于逆变工作状态,值班人员应每隔15分钟观察一次UPS的电池容量、负载情况、机房环境温度,尽量使电池容量大于60%,负载小于85%(因已有自购发电机应急,要求尽快短时间发电,减少UPS过度放电)。(4)发现机房环境温度高于26℃。当以上指标不能保证时,要及时向机房管理员报告,同时向分管领导报告。经过认真讨论,网管方案组成员及时采取关闭不必要的网络设备、加强通风降温、尽可能延长关键设备运行时间等措施。.2、核心机房应急发电流程图及岗位职责3、应急发电机用油保障措施发电机正常启动后,要保证及时供油。油品供应,签订油品供应协议,保证油品供应充足。2、油品供应在应急小组成员通知后准备,约定6小时内送达现场。3、只要发电运行超过一小时,停止发电后必须补充机油,确保发电机随时充满机油。4、油品零售采购受公安部门监管,分公司提前向公安部门报备信息。如公司因特殊原因有零售油品需求,且公安部门已有分公司备案信息,每一次零购油品申请公安部门盖章.可以随时购买。四、交流电恢复后的处理措施1、打开动力室和网络机房空调总开关,将调节温度设置为20℃。首先恢复机房制冷系统的正常运行。2、待市电稳定后(一般市电恢复后10分钟),关闭主备UPS设备的空气开关,恢复主备UPS的交流供电。观察并确认UPS切换到交流稳压浮充状态。3、关闭客服系统总空气开关,恢复客服系统交流电源,观察设备运行情况。4、观察10分钟,确保所有网络和设备及UPS设备组稳定工作后,停止发电机并将情况报告给调度员和主管。5.应急小组整理储存发电物资,记录发电机工作时间和油/水/电路的切断情况。确认机房冷却设备关闭,整理保管资料。6、对处理情况进行详细的书面记录,并请相关人员签字确认,并上报集团公司信息系统管理平台填写相关记录。五。发电机的日常维护保养措施对于柴油发电机组,由于它不是主要的日常供电设备,日常维护保养主要包括以下几个方面:1、定期检查更换柴油滤清器和机油滤清器;2、定期清洗检查进气过滤器,并定期更换(或根据现场工况和进气过滤器的透气性进行更换);3、定期检查和清洁电池组端子,保持端子清洁;4、定期检查电池组的充电状态,确保良好的充电效果;5、定期检查风扇皮带的状态,确保其没有损坏,松紧正常;6、定期检查冷却液的状态,确保符合要求;7、定期检查或更换柴油机油,确保油位正常;8、在寒冷的冬季,确保机组预热装置正常工作,以便在需要启动发电机时能正常启动;