当前位置: 首页 > 科技观察

GitHub全球崩溃:数百万开发者下班;国产Github声势浩大

时间:2023-03-13 22:19:47 科技观察

周一上午,软件开发平台GitHub出现严重宕机,不少开发者为之疯狂。GitHub中断从04:06UTC(03:06BST)开始,并在09:31BST得到解决。仅在2020年4月就发生了3次独立的中断,这一事件引发了人们对GitHub可靠性的新质疑。GitHub将4月份的三起故障归咎于:与数据分区相关的工作,“导致意外进入生产”;网络配置“无意中应用于我们的生产网络”。GitHub在4月份承认其模拟实验室环境存在问题。“暂存环境构建数据库和数据库连接的方式与生产环境不同。这可能导致特定于生产环境的连接更改的可测试性有限。我们将在未来几个月解决这个问题,”该公司表示。“GitHub的大部分平台都在自己的裸机基础设施上运行,网络基础设施“围绕Clos网络拓扑构建,每个网络设备通过边界网关协议(BGP)共享路由。”GitHub于2018年被微软以7.5美元收购亿,被超过5000万开发人员使用。考虑到它支持的工作负载以及对它的广泛依赖以确保高可用性,像这样的大规模故障可能会产生严重影响。与许多其他大型基础设施提供商一样,Microsoft的所有者GitHub,面临这样的挑战:新冠疫情后远程工作者激增导致的工作量激增,需要数据中心基础设施规模迅速扩大。很多网友在推特和微博上评论:随着全球工厂纷纷关闭,大型企业和超大规模公司需要检修数据中心,而新冠疫情严重影响了全球服务器硬件供应链。(Dropbox的CTO说他公司的数据中心团队“在八周内主动更换了30,000个零件”以安全地减少现场人员)。与此同时,芯片制造商AMD在其第一季度财报电话会议上表示,在冠状病毒危机期间,由于工作负载激增,一家未具名的云提供商在短短10天内就为其数据中心增加了10,000台服务器,云提供商拼命增加其基础设施的规模。但是,GitHub的问题似乎大多与暂存环境和生产环境之间的差距有关。