数据中心运维那些不成文的规矩

时间：2023-03-16 19:02:15 科技观察

数据中心是信息处理的重要场所。里面的设备承载着很多重要的业务，对持续稳定运行的要求很高。然而，业务的运作仍取决于数以千计的电子设备的稳定运行。为了保证这些设备不出问题，或者不被业务层面发现问题，数据中心运维的技术人员认为有很多方法，其中一些方法已经逐渐成为行业运维标准，许多数据中心已经效仿并实施了它们。其实，有时候制定这些不成文的规定，技术人员真的很无奈。根本目的是保证数据中心业务的持续稳定运行。业务中断对数据中心来说是个大问题，很多业务中断损失都是按秒计费的，所有的规定都是针对数据中心的。那我们就来看看运维工作中有哪些有趣的潜规则吧。重大节假日必须封网。每到重大节假日，各大网络运营商、重要行业企业的数据中心都会陆续封网。所谓闭网，就是停止所有对数据中心的人为操作和业务变更，让设备自行运行，无需人工干预。封网不是减少人员值班，而是加强人员值班，确保数据中心运行不出问题，出现问题及时处理和排除它们发生了。此时关闭网络可以减少一些人为故障。要知道80%的故障都是人为操作造成的，放着不管是最安全的。没有人愿意在关键时刻掉掉自己数据中心的链条，出风头，就像十九大一样。现在所有主流的数据中心都关闭了网络，不允许任何网络变动（如果设备出现故障除外），有的数据中心机房甚至上了锁，任何人都进不去。该系统也在数据中心的运维工作中进行了探索。根据以往的历史经验，只要减少人为干预，让设备自行运行，出现问题的概率就会大大降低。所以，关键时期坚决不做任何改变，让数据中心自己运行，失败的概率很高。定期重启设备。如果我们的手机使用时间长了，速度就会变慢。如果我们重新启动它并再次使用它，我们会发现它会好很多。事实上，数据中心的设备也是如此。数据中心内的设备常年不间断运行。运行时间长了，各种内存垃圾和各种软件BUG很容易暴露出来，设备出问题的风险增加。重新启动设备有助于减少故障的发生，延长设备的使用寿命。如果设备上的服务没有备份，重启设备可能会影响服务。因此需要在设备重启前做好评估，避免主动重启对业务造成影响。如果重启设备造成的中断时间可以接受，可以定期重启设备，比如半年或者一年。如果设备使用的软件版本比较旧，也可以用来升级软件。不要以为它重新启动了。设备是耻辱。就像一辆马拉的大车。长途跋涉，马也需要休息。一些数据中心每年都会进行一到两次故障模拟演练，其中包括重启设备以检查数据中心系统的稳定性和冗余性。有这个演练非常好，不仅可以让设备暂时休息一下，还可以及时发现数据中心运行的漏洞，进行修复。不要被动等问题严重了再考虑重启设备进行恢复。这往往会给企业造成严重的损失。加强设备的运行管理数据中心的设备很多。不同的设备来自不同的制造商并使用不同的功能。这些设备的操作人员必须严格管理。避免不熟悉设备的人误用设备。这些人为的失败数不胜数。因此，需要对访问设备的权限进行控制。不同的设备由不同的人管理，由最熟悉的人控制。对于一些设备变更操作，需要提前评估配置是否符合规范，是否存在已知风险。让设备制造商也参与变更操作，防止出现变更不符合预期的情况。数据中心对登录设备的管理非常严格，对不同的人员有不同的权限要求。如需申请相应的上级访问权限，需向高层领导申请，并说明清楚操作原因和原因。这是数据中心运维管理的重要组成部分。隔离/下线/重启三斧数据中心在运行过程中出现故障，第一时间是恢复业务，第二时间是故障原因。因此，运维人员在处理故障时，首先要明确故障部位。需要明确的是，我们还必须尝试恢复业务。这时候常用的就是这三把轴：隔离、下线、重启。这三个轴都是针对特定的设备，因为数据中心的故障都是来自特定的设备，而稳定运行时出现的故障，基本都是某台或某台设备出现问题。隔离就是只根据业务故障的范围，将故障的设备端口、VLAN或流量切换到其他正常通道。如果不能明确界定故障范围，可以考虑下线设备。设备业务切换到其他设备。比如某台服务器的业务出现异常，将这台服务器上的虚拟机迁移到另一台服务器上，以尽快恢复业务。有时，设备之间没有备份，无法进行离线处理。例如，一些核心网设备需要离线做大量的业务切换工作。这时候可以考虑重启设备看能否恢复。重启后基本可以恢复，短时间内可以继续正常运行，为分析问题原因赢得了宝贵的时间。一方面继续分析原因，另一方面让数据中心业务继续正常运行。找到问题原因后，就可以对隐患进行补救。数据中心运维人员在日常工作中也逐渐摸索出了很多经验。这些都是一点一滴的经验教训，是数据中心的宝贵财富。有些法规虽然没有深厚的技术支撑，但非常实用。这些也是运维人员在面对数据中心故障时想到的方法。俗话说“说粗话不粗话”。这些不成文的规定看似简单，但在关键时刻却非常有效。

上一篇：Github3月Python开源热门项目

下一篇：常小兵：中国电信行业一个时代的句号

数据中心运维那些不成文的规矩相关文章