当前位置: 首页 > 科技观察

服务器故障定位方法及解决方案,运维专家教你快速排查问题!

时间:2023-03-16 17:41:22 科技观察

随着互联网的普及,服务器作为互联网的重要支撑,被广泛应用于各行各业。服务器虽然应用广泛,但很多企业并不了解。那么如果我们从事互联网相关行业,遇到服务器故障,应该如何解决呢?让我们学习如何排除和修复服务器故障。一、机房环境1、温湿度:最佳工作温度:20-25摄氏度极限工作温度:10-40摄氏度湿度:8-80%(23摄氏度时)。2、机房同时要保持服务器清洁。机房应保持服务器清洁。如果空气中灰尘过多,很容易造成资源读写错误,损坏磁盘或磁盘驱动器中的读写磁头。定期使用皮虎和刷子清除服务器上的灰尘。2、电源电压:要求电压稳定,尖峰电压会损坏设备。电压范围:220V+/-10%,即200-240V,50-60Hz。地火三相电,其中零地电压不得超过3.0V。电源连接:使用空气开关或其他符合电流要求的设备与主机电源线连接,以保证计算机系统的可靠运行。使用稳压电源和UPS,冗余电源接入,采用两路独立输入。3、硬件检查检查服务器、磁阵安装、电源线主机接线是否符合要求。服务器状态检查:1.当服务器启动并正常工作时,前面板液晶显示器上不应有任何信息显示。2、当LCD上出现带数字和字母的信息时,表示有硬件告警。您可以通过查询相关机型面板上的报警编号信息,找出相应报警的原因。如果情况严重,必须立即通知服务器厂商进行故障排除。3、当服务器状态灯变为橙色时,表示有硬件告警。此时检查磁柜的电源、接线、硬盘等。如果出现硬件故障,请立即更换并修复。如果查不出具体问题,则需要联系相关厂家进行进一步诊断。4、当硬盘正常工作时,每个硬盘对应的硬盘灯会呈绿色。如果没有读写,绿灯会一直亮着。如果硬盘有读写操作,绿灯会不规律的闪烁。当硬盘损坏或RAID出现问题时,硬盘状态灯会熄灭或闪烁:它会以1到3秒的频率有规律地连续闪烁。根据实际运行系统中遇到的问题,归纳出以下几种常见故障及其定位方法和解决方法。1、硬件故障硬件故障有很多种,对系统的影响也不同。这里根据故障对系统的影响分为两类:致命的硬件故障和只影响功能的硬件故障。硬件分类:其损坏对系统有致命影响(会导致机器停止或无法启动)的硬件包括:主板、CPU、RAID卡、电源模块、风扇、本地硬盘、内存损坏等.这些器件的损坏会导致系统无法完成自检、开机和启动,液晶屏上会出现错误信息,可以根据液晶屏上的错误代码比较错误原因,如果在工作状态下发生这些硬件损坏,系统将暂停或关闭。仅对系统有功能影响(机器不会停机,可以正常启动)的硬件损坏包括:??网卡、有坏块的本地硬盘、显卡和其他外围设备。这些设备的损坏只影响特定的功能,如网络功能、显示功能、访问磁盘阵列等。如果本地硬盘有坏块,则要看坏块中是否包含重要的系统文件。如果不是重要的系统文件,不会影响系统功能,但也建议立即更换硬盘。故障定位与排除:液晶屏上的错误代码根据错误代码判断是什么硬件出现了故障。对于系统来说,原则上需要进行业务切换,在不影响用户使用的情况下,让损坏的服务器下线,然后修复故障机器,恢复系统。2、磁阵故障磁阵引起的故障是目前遇到的频率最高、危害最大的故障。据不完全统计,其故障占故障总数的70%以上。具体可能导致磁阵故障的环节包括:磁阵硬盘、主机上的RAID卡、连接主机的SAS线、硬盘的位置和接线方式、机柜使用的电压和周围磁场、磁阵/硬盘/RAID卡等都可能导致异常。磁阵问题最为复杂。一般有物理损坏和环境原因。这是主要原因,如接线、插盘位置不符合要求,未能及时检查系统告警而导致系统中断。根据经验,无论是什么硬件故障导致故障,系统都会产生告警。如果能及时发现问题并采取措施,如果是硬件故障,可以从状态灯上观察:当单个硬盘出现故障或不使用时,面板上的硬盘状态灯不会亮灯亮,阵列状态灯黄灯亮。服务器磁阵配置的RAID卡一般带有充电电池,以备突然断电时使用。