思科交换机一般不容易出故障。一旦出现故障,CCNA认证学员通常很难发现并排除。本文总结了开关在使用过程中经常出现的一些小故障,以帮助同学们通过认证,适应简单的工作环境。1、关于物理层线路连接失败物理层线路连接是网络正常使用的先行。必须指出的是,很多时候所谓的网络故障,都是由于物理层线路不通造成的。例如:对应台式电脑的双绞线接错交换机接口,RJ45接头松动,物理线没有接好。这里需要说明的是,Cisco交换机与交换机之间使用交叉双绞线连接,交换机与路由器或者电脑之间使用直通双绞线连接。如果需要交换机在某个接口上进行自适应媒体接口,必须在相应的接口模式下使能auto-MDIX命令。auto-MDIX的全称叫做automaticmedium-dependentinterfacecrossover。启用该功能后,无论接口连接何种线缆,交换机都可以自动调整接口使其正常工作。启动auto-MDIX有一个要求:接口必须能够自动协商速度和双工模式。2.双工模式相关故障双工模式不匹配会产生相关故障。当今网络市场上几乎所有设备都支持全双工模式。当然,除了传统的集线器(HUB)设备外,所有的网络设备都应该是全双工的。默认情况下,Cisco建议将交换机的接口配置为自动协商速度和双工模式。原因是:如果出现半双工设备连接到Cisco交换机。然后,Cisco的交换机会将其全双工模式降级为半双工模式以适应设备的运行。如果管理员强制交换机接口工作在全双工模式,就会出现接口错误。排除的依据是使用showinterfacesfastEthernet0/1counterserrors查看接口上的错误。如图1所示。3.故障交换机接口错误交换机接口错误通常会导致大量的数据帧。例如:当用户发现基于TCP的应用变得很慢时,似乎TCP应用变慢与交换机接口故障无关。但进一步考虑,TCP变慢的更多原因是由于TCP慢启动。在TCP慢启动状态下,TCP的滑动窗口大小会变小,这种现象往往是交换机丢包造成的。这种情况下,基于UDP的应用就更要命了,因为UDP根本不会重传,所以网络质量会严重下降。因此,在排查此类故障时,需要了解交换机丢包的原因,这往往与交换机的接口错误有关,还要查看交换机接口的错误统计信息。交换机接口的错误统计信息可以通过showinterfacex/ycounterserrors获得,如上图1所示。下面我们来了解一下每个错误统计的含义:Align-Err(对齐错误):如果数据帧不是偶数在第一个八位位组的末尾发生对齐错误,表示物理层错误,通常是由错误的接线或开关接口。FCS-Err(framecheckerror):帧校验错误,通常也发生在物理层,并伴有Align-Err现象。Xmit-Err(transmissionerror):表示交换机的接口已经溢出了传输缓冲区,这通常是由于出入速率不匹配造成的。Rcv-Err(receiveerror):表示交换机接口接收缓冲区溢出,一般是交换机背板拥塞导致接收缓冲区满。在许多情况下,接收错误还表示双工不匹配。UnderSize(undershortframe):表示校验和有效,但帧大小小于64字节,表示连接到该接口的主机发送的数据帧大小无效。Single-Col(单次碰撞):表示在接口成功发送数据帧之前发生碰撞,则发生单次碰撞错误。出现此错误的原因是链路使用率过高或双工不匹配。Multi-Col(MultipleCollisions):表示在接口成功发送数据帧之前发生多次碰撞,会发生多次碰撞错误。出现这个错误的原因是链路使用率太高或者双工不好。匹配。Late-Col(延迟碰撞):表示数据帧转发后检测到的碰撞。这个错误的原因是物理介质(如:电缆)太长或双工不匹配。Excess-Col(过载碰撞):当数据帧连续遇到16次碰撞时,将被丢弃。这时候就会出现过载碰撞错误。出现这个错误的主要原因是链路使用率太高,双工不匹配,网络中设备太多,尤其是半双工设备。Carri-Sen(carriersense):表示接口工作在半双工状态。根据CSMA/CD的工作原理,在半双工状态下发送数据时,需要进行碰撞检测,这会增加carri-sen计数器。CSMA/CD不用于全双工模式。Runts:帧大小小于64字节,CRC错误。runtframe的错误一般是由物理层故障或双工模式不匹配引起的。Giants:帧的大小大于1518字节。通常,巨帧的错误是由于主机网卡故障引起的。4、关于交换机CPU占用率高的问题。如图2所示,交换机架构通常由两层组成:控制层和转发层。控制平面负责运行交换机的操作系统、STP、路由协议、维护路由表、执行ACL等。控制平面包括交换机的CPU和内存。转发层包括转发逻辑和交换机的背板。交换机的转发逻辑是交换机用来做出转发决定的硬件。硬件负责改写数据帧头;交换机的背板负责物理连接到交换机的端口。它基于交换机的整体系统架构,数据帧从交换机的入接口进入,然后转发到交换机的背板,最后通过出接口转发数据帧。注意在这个过程中控制平面并不直接参与数据帧的转发。因此,当交换机正常工作时,即使是在流量转发的高峰期,交换机的CPU占用率也应该很低,因为它不直接参与流量转发。虽然控制平面不直接参与流量转发,但是转发平面中的转发逻辑来自于控制平面,因为数据帧的转发与控制平面还是有一定的间接关系的。在这种情况下,如果控制面负载持续高,比如CPU占用率高,就会影响交换机的数据转发率。因此,从交换机架构来看,控制平面不会影响交换机的性能,但排查故障时也必须考虑控制平面的因素。交换机的转发逻辑由称为TCAM的专用存储器体现。TCAM结合交换机的CEF功能,数据转发的速度会非常快。但是一旦转发逻辑失效,比如:TCAM内存溢出,转发逻辑将无法转发流量。此时交换机的CPU会转发流量,会增加交换机的CPU开销,降低转发能力。或者换句话说,如果交换机的CPU占用率过高,说明交换机没有使用转发逻辑转发数据帧,需要及时排查故障。
