当前位置: 首页 > 科技观察

WAN路由器IP更改导致Microsoft365大规模中断

时间:2023-03-17 19:48:01 科技观察

BleepingComputer透露,长达5小时的Microsoft365全球中断是路由器IP地址更改导致其广域网(WAN)中所有其他路由器之间的数据流量中断。由数据包转发问题引起。2023年1月25日,MicrosoftTeams、Outlook、Xbox等Microsoft365服务出现不同程度的中断和延迟,主要影响亚洲和欧洲用户,引起业界广泛关注。微软在接到客户报告后立即展开调查,并组织技术专家修复程序,排除故障,使服务恢复正常。随着事件的发展,Microsoft365团队在社交媒体上表示,它已经确定了一个潜在的网络问题,并正在审查遥测数据以确定下一步的故障排除步骤。目前,微软已将服务中断问题与网络配置问题隔离开来,正在分析解决这些问题的最佳缓解策略,力争不造成额外影响。微软多项服务受中断影响据雷德蒙德称,受影响的用户可能无法访问有问题的Microsoft365服务。受中断影响的服务列表主要包括:MicrosoftTeams、ExchangeOnline、Outlook、SharePointOnline、OneDriveforBusiness、PowerBi、Microsoft365AdminCenter、MicrosoftGraph、MicrosoftIntune、MicrosoftDefenderforCloudApps、MicrosoftDefenderforIdentity.Azure团队在微软Azure服务状态页面强调,技术团队已确定网络连接问题发生在微软广域网(WAN)设备上,主要影响互联网客户与Azure的连接、ExpressRoute连接和数据中心服务。连接。服务器中断问题正在造成一波又一波的影响,大约每30分钟出现一次高峰。此外,一些客户在加载MicrosoftAzure状态页面时也遇到了问题,该页面间歇性地显示“504网关超时”错误。目前,微软内部技术团队正在积极调查,一旦有更多信息,将第一时间与公众分享。随着调查的深入,Azure团队发现中断背后的根本原因是最近对微软广域网(WAN)的更新,并且微软已采取措施回滚此更新。值得一提的是,微软强调,最新遥测显示多个地区和服务有恢复迹象,正在继续积极监测,可以确认受影响的服务已经开始缓慢恢复并保持稳定。Microsoft365全球宕机是由于路由器IP变更引起的经过调查和分析,微软最终确认5小时的Microsoft365全球宕机是由于路由器IP地址变更导致数据包转发出现问题。雷德蒙德调查事件后表示,此次全球中断是由WAN更新导致的DNS和WAN网络配置问题引起的,许多用户在访问受影响的Microsoft365服务时遇到问题。微软透露,服务器中断问题是在使用未经彻底审查的命令更改WAN路由器的IP地址时触发的,该命令在不同的网络设备上有不同的行为。作为更新WAN路由器上IP地址的计划更改的一部分,向路由器发出命令会导致它向WAN中的所有其他路由器发送消息,这会导致所有路由器重新计算它们的邻接关系和转发表。在重新计算期间,路由器无法正确转发通过它们的数据包。当网络从世界标准时间08:10开始自行恢复时,负责维护广域网(WAN)健康的自动化系统由于对网络的影响而暂停。这些系统包括识别和消除不健康设备的系统,以及优化网络数据流的流量工程系统。由于中断,一些网络路径从世界标准时间09:35开始继续“经历”丢包增加,直到系统手动重启使WAN恢复到最佳运行状态,恢复过程在世界标准时间12:43完成。特别是,从世界标准时间上午7点05分开始调查到世界标准时间中午12点43分服务恢复,雷德蒙德仅用了五个多小时就解决了中断问题。在服务器中断之后,微软表示它正在阻止高影响命令的执行,并且还要求所有命令的执行都遵循安全配置更改的指导方针。