前言交换机是局域网中非常重要的网络设备,它的工作状态与客户端系统的在线状态密切相关。但是在实际工作过程中,交换机的状态很容易受到外界的干扰,从而导致局域网出现各种网络故障。为了保证网络的稳定运行,平时一定要对交换机进行妥善的管理和维护,避免出现交换机故障。笔者在维护某楼局域网时,遇到物理连接不当导致无法ping通楼层交换机的故障现象。这种网络故障排查,让我费了不少心思。由于该故障比较典型,故障处理思路可以借鉴,现分享给大家。故障发生时我负责的办公楼里有好几家公司。为了保证每个公司都能独立上网,并要求自己的上网状态不受其他公司的影响,我选择了一台路由交换机作为楼宇网络的核心交换机。同时在交换机上为各个单元设置不同的虚拟工作子网。由于每个单元分布在不同的楼层,因此分布在每个楼层的公司数量也不完全相同。有些楼层有两个或三个单元,有些楼层有多达五个或六个单元。不同楼层的单元工作子网均通过相应楼层的交换机接入大楼局域网,通过大楼网络中的硬件防火墙接入Internet。为了提高网络管理效率,网络管理员通常通过远程连接来管理和维护交换机。然而那天早上上班,在扫描诊断局域网核心交换机各个交换机端口的工作状态时,发现其中一个交换机端口宕机了。于是查了下网管文件,发现端口接在五楼的一个二楼交换机上。当我远程登录本楼层的交换机时,发现无法登录成功。当我用ping命令测试交换机的IP地址时,返回的结果是“Requesttimeout”;就在我纳闷怎么没人报错的时候,电话果然响了。终于不出所料,五楼的用户陆续开始反映网络故障。根据以上故障征兆,我估计可能是楼层开关的工作状态出乎意料。于是我跑到开关出现故障的地方,切断了设备的电源,过了一会儿,再次打开电源重新启动。引导操作完成后,我ping了交换机的IP地址。此时返回结果正常,可以顺利进行远程登录操作。然而,半小时后,故障交换机又出现了同样的故障现象,在测试ping命令时,返回异常测试结果。后来担心,反复开机测试,发现故障交换机无法正常ping通。深入排查由于多次重启都无法解决问题,考虑到这种故障现象在网管过程中经常遇到,我猜测故障原因比较复杂。于是我按照以下思路进行了深入排查:考虑到在整个楼宇网络中,只有五楼的某个楼层交换机存在这种现象。我初步判断可能是这层楼的开关本身有问题。为了保证能够准确定位故障原因,我准备将故障开关换成工作正常的开关,看故障是否还存在。同时将怀疑有问题的交换机连接到一个独立的网络工作环境中。经过半个小时的测试和观察,发现连接独立网络环境的故障交换机工作正常,可以通过网络环境ping通它的IP地址。新更换的交换机接入楼宇网络后,无法正常ping通。根据这些现象,我认为五楼的开关出问题的可能性几乎没有。在排除交换机本身故障的状态因素后,我重新审视了整个楼宇网络的网络结构和网络状态。由于大楼其他楼层的用户可以正常上网,只有五楼部分用户无法上网。查看五楼的组网信息,五楼分布着五个单元。当时网络管理员在五楼布置了两台楼层交换机,通过级联的方式连接在一起。同时,在这两个交换机中划分了五个虚拟工作子网,保证了每个单元都可以在自己的虚拟工作子网中独立工作。由于核心交换机上对应的端口已经宕机,导致五楼所有单元无法上网。为什么只有部分用户报错?上班时间一到,我就第一时间电话联系了其他公司。报告网络故障的公司。他们收到的回复说,他们刚发现网络访问不正常,正准备向大楼网络管理员寻求帮助。这样一来,五楼的所有单元都无法正常上网,所以故障原因应该出在这些单元的虚拟工作子网中。锁定五楼五台故障排除范围后,我认为可以通过重启五楼一台交换机的设备,暂时恢复网络故障。仅仅半小时后,同样的网络故障现象又会出现。对比这种特殊现象,我怀疑可能是网络广播风暴,导致交换机在一定时间内被阻塞,最终阻塞了核心交换机对应的交换端口。为了方便分析故障,我使用网络监控工具分析了五楼交换机级联口的网络传输数据包。发现输入包流量和输出包流量都很大,几乎是正常值的100倍,这说明四楼网络出现了网络拥塞。那么是不是网络病毒造成的网络拥堵呢?还是网络环路造成的网络拥塞?打算观察故障交换机级联端口的状态信息变化,尤其是输出广播包的变化。如果输出的广播包每秒都在增加,那么十有八九可以证明五楼的网络存在网络环路。基于这种分析思路,我使用控制台控制线直接连接故障交换机,以系统管理员身份登录系统后台。同时使用display命令查看交换机级联口输出广播包的变化,每秒检查一次,然后比较每次检查的结果。经过反复测试,发现故障交换机输出的广播包大小确实在不断增大。由此可见,五楼的五个单元肯定存在网络环路。仔细查看了五楼的两个交换机,发现它们之间的物理连接是正常的。此外,两台交换机的每个交换端口都直接连接到五楼每个房间的墙上互联网插座。按理说,只要各个房间不使用交换机进行级联,就应该不存在网络环路。既然已经证明五楼的网络存在网络环路,那说明肯定是有人在随意使用交换机来扩大网络。我们只需要找到扩展交换机并检查它的物理连接,就可以快速找到具体的故障节点。于是我打电话给五楼各单位的网络管理员,让他们检查每个办公房间,并报告使用下级交换机的房间。检查结果没多久就反馈给我了,大概有10个房间使用了下层交换机来扩展上网。这时我知道这10个房间的网络连接最有可能出现网络环路现象。这是哪个房间?是不是应该轮流去每个房间的站点查看他们的网络连接情况?仔细考虑后,我找到了网络信息,将这10个房间使用的交换端口号一一找出来。然后用网线直接插在这些交换机端口上,在这些端口的viewmode状态下,依次ping出故障交换机的IP地址。结果,当我ping到交换机的第六个端口时,发现从这个端口无法正常ping通。为了判断是否真的是交换机端口有问题,我在交换机端口的视图模式下使用display命令查看了交换机端口的状态信息。检查分析后,发现交换机端口的输入输出包大小明显异常。因此,我估计故障交换机工作状态异常的原因一定是交换机端口。查阅了档案,很快就根据交换端口号找到了对应的上网机房。到了现场,发现房间里仅有的两个上网口连在一个小集线器上,两个集线器上连着几台电脑。更要命的是,有一根网线将它们直接连在一起,这样两个集线器之间就形成了网络环路。环路引起的广播风暴最终阻塞了故障交换机的级联端口,从而导致整个楼宇网络无法正常上网。故障排除拔掉冗余网线后,再次查看交换机端口的状态信息。发现输入输出包大小恢复正常。再次查看核心交换机上对应交换机端口的状态时,发现原因的“down”状态已经变为“up”状态,此时可以ping通故障交换机四楼正常。由此可见,问题确实是五楼某房间的用户非法延长交换机或集线器的使用造成的。后来又进一步询问了网友得知他们的房间是前一天晚上打扫过的,当时网线都拔掉了。清理工作结束后,网民对连接知识了解不多,随意插拔,最终造成网络环路现象。小结通过对此次网络故障的深入排查,不难看出,在遇到网络故障时,必须结合故障现象逐步缩小排查范围,然后使用专业工具测试网络故障的大小变化。互联网数据包,快速定位故障。故障节点。希望我的故障排除经验对您有所帮助。
