当前位置: 首页 > 科技观察

数据中心UPS电源七大故障分析

时间:2023-03-17 19:40:04 科技观察

UPS是数据中心不可或缺的电源保护系统,其应用领域也越来越广泛。但长期以来,由于部分用户不了解UPS的组成、原理和特点,不注意UPS的管理和维护,导致使用寿命缩短,故障率增加。因此,UPS的性能受到影响,UPS系统故障,UPS系统被动故障可分为可用性故障和设备或板级故障。UPS的可用性故障所谓可用性故障是指由于运维人员操作不当,对故障现象判断错误,采取的措施不当,经验诊断不当而导致的故障。UPS的可用性故障大致可分为知识性故障、操作性故障、延时性故障、维护性故障、经验性故障、环境性故障、突然断电故障、UPS设备或板级故障等。1.知识性故障的发生此类故障主要是由于维修人员缺乏基本理论知识造成的。例如,新安装的30kVAUPS为一台设备供电。设备接上电源开机后,发现设备中有一个电源模块被烧毁。因此,用户认为是UPS三相电压零点漂移所致,向UPS厂家投诉,要求立即检修或更换设备,并对损坏的设备进行赔偿。由于用户提出了如此专业和严重的问题,厂家立即派技术人员对UPS进行检查。经检查,三相输出电压分别为220V、219V、219V,对称性很好,零点没有漂移。经过仔细检查分析,确认是设备电源模块因质量问题损坏,更换电源模块后设备运行正常。对于三相电压,一般来说,其偏差小于2%,可以忽略不计。目前,大多数UPS都具备在三相负载100%不平衡时自动调整其电压不平衡度至2%以下的能力。所谓三相负载100%不平衡,是指UPS的一相或两相满载,而其他两相或一相空载的情况。例如30kVA的UPS一相满载值为10kVA(即10kVA/220V=45A)。并不是像有些人理解的那样,一相电流为1A,另一相为2A,就认为它们的不平衡度为50%。其实不能这么理解。反之,如果一相电流为1A,另一相电流为0,它们的不平衡度不就是100%吗?从字面上看似乎是正确的,但定义却不正确。再比如,有的用户配置UPS的电池寿命为3~5年,夏季环境温度经常超过30℃,市电连续两年以上从未停过,维修人员开机后从未损坏电池。已进行检查或容量测试放电测试,电池运行状态未知。偶尔市电停电时,电池放电时间小于额定时间的1/3,UPS就会关机。因此,用户向制造商发出了索赔通知。在厂家维修工程师指出故障原因,出示使用说明书中电池维修的相关内容,并详细分析电池容量下降的原因后,用户无法再提出索赔。但对厂家声誉的影响是严重的。2、操作故障由于UPS所承载负载的重要性,为保证UPS的安全可靠运行,每一种产品都有自己的一套安全操作规程,并写入说明书中,供用户参考去执行。但有些维修人员却不以为然,不按既定程序操作,而是按照自己的理解随意操作。结果,有时会出现问题;当一个设备不慎被相邻设备损坏,没有发现,上电时出现二次故障;检查故障时,表笔误将两点短路;接外接电池时,正负极接错;只有一个或几个电池连接片未拧紧或电池开关未关闭。当市电停电时,电池将无法放电而导致UPS关机;UPS无法启动或转换失败;UPS上电后忘记启动逆变器,也会造成市电停电时停机;由于值班人员在机房内乱放食物,引来老鼠,老鼠啃咬电缆或潜入机内。这会导致电缆或组件之间发生短路故障;未屏蔽的远传信号线与交流线并联,因耦合干扰等引起故障。3.延迟性故障发现后及时采取相应措施。例如,在UPS双冗余并机系统中,负载平均分配给两台UPS,有时由于某种巧合,其中一台逆变器停机,负载完全转移到另一台UPS上,如果维护人员及时发现,则只需重新启动关闭的UPS逆变器即可;另一方面,备份时间减半。这时,一旦负载超载,所有承载的负载都会中断。又如,当电池在不理想的情况下运行时,应及时对电池进行保养,一旦发现容量明显下降的电池,应立即更换。因为电池的损坏有的是逐渐积累造成的,有的是瞬时的,也就是昨天还能用,今天就不能放电了。这种情况在蓄电池的维护中会遇到:在上次月检中,个别蓄电池的浮充电压虽然略低,但并非完全不能用。但是根本无法放电。因此,一旦发现电池有故障,一定要及时更换,以免发生意外。4、维护故障UPS的定期维护内容虽然较少,但这些内容是非常必要的,而且这些维护必须有一套严格的程序。未能按要求定期对设备进行维护保养是造成故障的一个重要原因。例如,有些UPS已经很久没有维护了。一旦发现设备不稳定,他们就不得不要求维修。打开机箱后,电路板和元器件上积了一层厚厚的灰尘。只要用吹风机和吸尘器清除灰尘,设备就可以恢复正常。又如,UPS维修后,维修人员将市电接入输入端,却忘记启动逆变器或关闭电池开关。当下一次市电停电时,UPS将因逆变器无法启动而关机。5.经历过的失败,即使是多次处理失败的经验,也不能生搬硬套。例如,有A品牌UPS操作经验的用户操作新装的B品牌UPS,无需阅读说明书,直接凭经验启动直流启动。因为他熟悉的UPS是可以DC启动的,但是这台机器没有DC启动的功能,当然不能启动。于是他打开机箱,用螺丝刀戳了一下继电器。逆变器虽然启动了,但马上就冒烟,功率管也坏了。他不知道,具有直流启动功能的UPS在启动时有一定的程序:当直流启动开关打开时,先控制电路工作,然后驱动逆变器,即正常启动。但是这款UPS没有直流启动功能。在控制电路工作的同时,逆变器也在启动。过渡中的不稳定状态导致逆变器的两个功率管同时导通而烧坏。有些维修人员认为自己在培训中已经掌握了UPS的原理,只需要学习一些故障排除方法即可。在短期训练中,只能学会一些简单故障的判断方法。具体故障需要具体分析,经验只能作为参考。例如,UPS交流输入保险丝熔断的原因有很多,如整流器击穿、滤波电容击穿、逆变器击穿、输入整流管两端RC网络短路,以及由此导致的控制电路损坏等。这些会导致保险丝熔断。当然,对于一些简单故障的判断和排除,经验是有用的,但要灵活运用,具体情况要具体情况具体对待。6、环境故障环境故障是由于用户没有注意设备的使用环境而引起的。例如,一台30kVA的UPS被用户长期放置在杂物堆满的仓库中。仓库没有空调或通风设备。夏季气温高达30-40℃,湿度大。这也是一个很大的折扣。该UPS在安装投入使用时,故障频发,电池容量远不能满足要求。再举个例子,在一个简易的屋顶房间里安装了一台20kVA的UPS。风雨过后,UPS逆变器停机,充电板烧毁。检查发现,屋顶上的泥水是从上部出风口灌入机内的。有些地方市电条件差,经常停电,造成电池长期处于亏电状态,寿命急剧缩短;在一些地方,高干扰电压经常叠加在市电电压上。雷电反复烧坏,有时还会烧毁UPS,从而损坏电气设备。从以上几点可以看出,对UPS的维护应该制定一套科学有效的方法并严格遵守,这样才有可能避免上述人为故障的发生,从而使UPS的故障率降低大大减少,真正实现不间断服务用电设备提供安全可靠的清洁电力。7、突然断电突然断电会对UPS硬件造成很大的损坏,也会影响数据中心的运行。突然停电大多是UPS负载超过上限而引起的自动关机保护。对此,可以关闭几个不重要的设备,使UPS的负载率保持在90%以下。