网络基础设施故障排除是一个多层次的过程——从模糊的“出了什么问题”到具体问题的根本原因分析。这个过程越有条理,对网络行为与影响最终用户的问题之间的相关性了解得越充分,问题就能越快得到解决或提交给适当的团队进行补救。这个过程中的一个长期挑战是用户投诉往往含糊不清。用户(无论是员工、客户,甚至是对网络状况敏感的算法)通常会遇到三种情况:“我无法连接”、“网络太慢”或“我的语音/视频通话质量不好”。由于每种情况都可能由多个潜在问题引起,因此IT团队通常很难缩小范围。例如,缓慢的网络可能是由网络、应用程序或协议延迟引起的,每一种延迟都可以通过不同指标中的任何一个来揭示。但对于沮丧的最终用户来说,一切看起来都一样——而且在转换过程中可能会丢失很多东西。为了找到根本原因并加快解决问题,IT团队不仅需要正确的工具来评估网络指标,还需要清楚地了解用户体验、可衡量的网络行为和潜在网络问题之间的相关性。为了说明这一点,让我们看一下故障排除过程。第一步:收集相关指标组织依靠许多来源和类型的Web数据来为最终用户投诉提供上下文。他们的基本需求是构建网络监控基础架构,以便IT人员可以访问数据包数据、流数据、事件和遥测数据以及服务器KPI。这将为他们提供确定各种情况的根本原因所需的洞察力。有与特定问题相关的特定指标。对于“网络速度慢”,相关指标是单向延迟、往返时间、Z-Win、DNS或HTTP延迟、吞吐量(Gbps)、每秒数据包数(PPS)、每秒连接数(CPS),或并发连接计数(CC)。对于“质量差”,请查看抖动、序列错误、重传和分段。当“连通性”出现问题时,请检查ICMP、HTTP和SYN/ACK错误。第二步:缩小问题范围一旦IT团队获得了他们需要的数据,他们就可以开始关联各种网络行为以排除可能的原因,并将实际问题归零。这取决于他们正在处理的投诉。网络速度慢-这很可能是网络过载造成的,但也有可能是服务器太忙或DNS服务器没有响应。如前所述,相关指标是单向延迟(网络问题)、往返时间或Z-Win(应用程序问题)以及DNS或HTTP延迟(协议问题)。如果网络延迟很高,那么要么是网络上的整体流量太高,要么是“不堪重负”。查看整体性能和吞吐量(Gbps)、每秒数据包数(PPS)、每秒连接数(CPS)或并发连接数(CC)应该有助于确定是哪一个。如果应用程序或协议延迟是原因,则可以将问题传递给适当的团队以供解决。观察数据包和流量数据对于排除慢速网络故障尤为重要。流量数据可以识别出流量最大的用户或每秒的数据包,但它无法说明网络的突发性或每秒的连接数——这需要数据包数据。质量差-IT应监控抖动、序列错误、重传和碎片以诊断这些投诉。高抖动率和序列错误表明网络流量存在问题,而重传和分段则表明数据包丢失。这些问题可能是由路由问题或错误配置的MTU(最大传输单元)分段引起的。连接性——此投诉可能是由身份验证、授权问题或设备访问控制列表中的错误引起的。要弄清楚是哪一个,IT团队应该首先查看相关设备的协议错误。接下来,他们应该检查连接错误,例如查看SYN/SYNACK错误的数据包数据,以确保客户端和服务器之间的TCP/IP三向握手已完成。第三步:确定根本原因此时,IT部门应该已经确定了问题的根本原因并可以开始补救。问题通常是网络配置错误,但其他可能性包括网络设备故障、应用程序错误或错误、DDoS攻击或其他一些安全事件。但如果无法访问广泛的网络指标和数据包数据,IT部门将不得不猜测是哪个问题在起作用。
