没有遇到故障的运维不是合格的运维,没有处理故障的运维不是好的运维。运维了这么多年,还是每天提心吊胆,担心突然出现故障,打破生活节奏。然而,人之算计不如天之算计。大部分故障都来自于近乎合理的操作,这次也一样。原因是把几百G的数据转移到阿里云的Nas上,挂载到外网复制。按理说这没问题,不就是几百G的数据吗,之前复制几G的数据是没问题的。但这没有意义。这几百G的数据,都是由大量的小文件组成的。在复制的时候,他们必须经常占用本地磁盘IO和网络IO。核心CPU,负载高达500多),而且服务器是老机器,配置很低。导致服务器直接挂掉。更可气的是服务器是K8S集群的master。master宕机,其他节点断开连接,集群崩溃。负载没有下降,服务器变得无法运行。只有一个技巧-重新启动服务器。服务员终于吓得爬起来了。但是,新的问题来了,Docker无法启动,提示/var/lib/docker/overlaysInput/Outputerror。这不是给我添麻烦吗?幸运的是,该目录下只有部分文件出现异常,并没有损坏整个文件系统。既然起不来,那我换个目录,我在/etc/docker/daemon.json里又换了个目录:cat>/etc/docker/daemon.json<
