最常见网络和用户体验问题的根本原因分析

时间：2023-03-22 00:11:23 科技观察

网络基础设施故障排除是一个多层次的过程——从模糊的“出了什么问题”到具体问题的根本原因分析。这个过程越有条理，对网络行为与影响最终用户的问题之间的相关性了解得越充分，问题就能越快得到解决或提交给适当的团队进行补救。这个过程中的一个长期挑战是用户投诉往往含糊不清。用户（无论是员工、客户，甚至是对网络状况敏感的算法）通常会遇到三种情况：“我无法连接”、“网络太慢”或“我的语音/视频通话质量不好”。由于每种情况都可能由多个潜在问题引起，因此IT团队通常很难缩小范围。例如，缓慢的网络可能是由网络、应用程序或协议延迟引起的，每一种延迟都可以通过不同指标中的任何一个来揭示。但对于沮丧的最终用户来说，一切看起来都一样——而且在转换过程中可能会丢失很多东西。为了找到根本原因并加快解决问题，IT团队不仅需要正确的工具来评估网络指标，还需要清楚地了解用户体验、可衡量的网络行为和潜在网络问题之间的相关性。为了说明这一点，让我们看一下故障排除过程。第一步：收集相关指标组织依靠许多来源和类型的Web数据来为最终用户投诉提供上下文。他们的基本需求是构建网络监控基础架构，以便IT人员可以访问数据包数据、流数据、事件和遥测数据以及服务器KPI。这将为他们提供确定各种情况的根本原因所需的洞察力。有与特定问题相关的特定指标。对于“网络速度慢”，相关指标是单向延迟、往返时间、Z-Win、DNS或HTTP延迟、吞吐量(Gbps)、每秒数据包数(PPS)、每秒连接数(CPS)，或并发连接计数(CC)。对于“质量差”，请查看抖动、序列错误、重传和分段。当“连通性”出现问题时，请检查ICMP、HTTP和SYN/ACK错误。第二步：缩小问题范围一旦IT团队获得了他们需要的数据，他们就可以开始关联各种网络行为以排除可能的原因，并将实际问题归零。这取决于他们正在处理的投诉。网络速度慢-这很可能是网络过载造成的，但也有可能是服务器太忙或DNS服务器没有响应。如前所述，相关指标是单向延迟（网络问题）、往返时间或Z-Win（应用程序问题）以及DNS或HTTP延迟（协议问题）。如果网络延迟很高，那么要么是网络上的整体流量太高，要么是“不堪重负”。查看整体性能和吞吐量(Gbps)、每秒数据包数(PPS)、每秒连接数(CPS)或并发连接数(CC)应该有助于确定是哪一个。如果应用程序或协议延迟是原因，则可以将问题传递给适当的团队以供解决。观察数据包和流量数据对于排除慢速网络故障尤为重要。流量数据可以识别出流量最大的用户或每秒的数据包，但它无法说明网络的突发性或每秒的连接数——这需要数据包数据。质量差-IT应监控抖动、序列错误、重传和碎片以诊断这些投诉。高抖动率和序列错误表明网络流量存在问题，而重传和分段则表明数据包丢失。这些问题可能是由路由问题或错误配置的MTU（最大传输单元）分段引起的。连接性——此投诉可能是由身份验证、授权问题或设备访问控制列表中的错误引起的。要弄清楚是哪一个，IT团队应该首先查看相关设备的协议错误。接下来，他们应该检查连接错误，例如查看SYN/SYNACK错误的数据包数据，以确保客户端和服务器之间的TCP/IP三向握手已完成。第三步：确定根本原因此时，IT部门应该已经确定了问题的根本原因并可以开始补救。问题通常是网络配置错误，但其他可能性包括网络设备故障、应用程序错误或错误、DDoS攻击或其他一些安全事件。但如果无法访问广泛的网络指标和数据包数据，IT部门将不得不猜测是哪个问题在起作用。

上一篇：物联网让数据有价值，开启新一轮数字化转型的浪潮

下一篇：被鄙视的币圈要死了？区块链进入生态“卡战”时代

最常见网络和用户体验问题的根本原因分析相关文章