当前位置: 首页 > 科技观察

专访九叔:系统运维人员如何解决突发故障?

时间:2023-03-16 18:58:39 科技观察

任何计算机系统都会出现故障,这可能发生在测试阶段,也可能发生在系统刚刚上线时,也可能发生在稳定运行多年的系统上。这些系统故障带来的负面影响可大可小,小到一个终端的软件无法使用,大到整个系统瘫痪……是IT部门的梦想目标企业网络是坚不可摧的。作为系统运维人员,应该如何解决这些突发故障问题?为了找到解决这个问题的办法,记者邀请了现任某上市公司系统工程师的九叔与大家分享。简介:张朋亮,外号(九叔)。现为某上市公司系统工程师,WinServer版主,专攻微软服务器、桌面虚拟化、AD架构等。目前主要致力于WinServer2012VDI的研究。记住一次突然的故障作为一名IT运维人员,工作中最常见的系统故障是一种很正常的现象,你永远不知道下一次故障会发生在什么时候,据记者采访了解到,九叔所在公司的系统运维现阶段维护已经比较成熟。目前系统底层比较强大。真正的问题是系统上的“应用程序”。由于每个应用程序都不同,所以不太容易谈论哪个应用程序会经常出问题。然而,就在不久前,该公司遭遇了重大失败。失败的原因很简单。空调实体机损坏,导致多台服务器过热,部分业务中断。更换新空调后问题解决。当然,在更换之前,当时也采用了一些“笨办法”,比如使用大功率风扇,打开机房的排风窗等,暂时缓解因机房损坏带来的不利影响。冷气机。故障排除那些事情的故障将不可避免地导致一些业务中断。可以想象,如果不及时处理故障,公司网络将处于“瘫痪”状态,后果不堪设想。事情,后果不堪设想。好在九叔的运维团队及时发现了问题。机房安装了温度报警系统。当温度达到阈值时,它会向相关运维人员发送短信。更棘手的是,造成这种故障的根本原因是空调坏了,而不是常见的停电、瞬时电流过大等情况。由于问题机房的服务器没有在线业务,实际损失不大,但影响不是很好。对于类似的故障排除,请大致遵循以下一般说明。1.接到报警或定期检查;2、检查是否有误报;3、确认告警内容属实,并进行相应处理;4、检查是否有方案,有则按方案处理,无则尽快与厂家联系。记下这件事。在处理问题的过程中,如果自己的团队无法处理,及时联系厂商,获得更专业的支持。失败后的思考与总结俗话说跌宕起伏,失败并不可怕,可怕的是无法从失败中汲取一些经验和教训。九叔说:“对于系统运维,我们不仅要关注软件层面的问题和运维,还要对IT基础建设有一定的了解,最起码要知道什么时候联系谁问题出现了,随着现阶段技术的发展,一个人不可能面面俱到所有的技术,所以当问题解决不了的时候,如何找到解决问题的人应该是每个人的必经之路系统运维人员空调故障问题是很偶然的,但是还是有办法避免的,就是在使用一定年限后更换硬件,而不是等到它出现会被彻底破坏。但是这种方式会带来很多额外的开销。一般来说,在企业中实施这种方式需要IT部门强大的后盾支持,才能更好的实现达到预期的结果。另外值得注意的是,无论具体是什么故障,做好计划和记录以防万一才是最重要的。如果这种问题再次发生,或者再次发生之后,也可以很快解决。