数据中心是信息处理的重要场所。里面的设备承载着很多重要的业务,对持续稳定运行的要求很高。然而,业务的运作仍取决于数以千计的电子设备的稳定运行。为了保证这些设备不出问题,或者不被业务层面发现问题,数据中心运维的技术人员认为有很多方法,其中一些方法已经逐渐成为行业运维标准,许多数据中心已经效仿并实施了它们。其实,有时候制定这些不成文的规定,技术人员真的很无奈。根本目的是保证数据中心业务的持续稳定运行。业务中断对数据中心来说是个大问题,很多业务中断损失都是按秒计费的,所有的规定都是针对数据中心的。那我们就来看看运维工作中有哪些有趣的潜规则吧。重大节假日必须封网。每到重大节假日,各大网络运营商、重要行业企业的数据中心都会陆续封网。所谓闭网,就是停止所有对数据中心的人为操作和业务变更,让设备自行运行,无需人工干预。封网不是减少人员值班,而是加强人员值班,确保数据中心运行不出问题,出现问题及时处理和排除它们发生了。此时关闭网络可以减少一些人为故障。要知道80%的故障都是人为操作造成的,放着不管是最安全的。没有人愿意在关键时刻掉掉自己数据中心的链条,出风头,就像十九大一样。现在所有主流的数据中心都关闭了网络,不允许任何网络变动(如果设备出现故障除外),有的数据中心机房甚至上了锁,任何人都进不去。该系统也在数据中心的运维工作中进行了探索。根据以往的历史经验,只要减少人为干预,让设备自行运行,出现问题的概率就会大大降低。所以,关键时期坚决不做任何改变,让数据中心自己运行,失败的概率很高。定期重启设备。如果我们的手机使用时间长了,速度就会变慢。如果我们重新启动它并再次使用它,我们会发现它会好很多。事实上,数据中心的设备也是如此。数据中心内的设备常年不间断运行。运行时间长了,各种内存垃圾和各种软件BUG很容易暴露出来,设备出问题的风险增加。重新启动设备有助于减少故障的发生,延长设备的使用寿命。如果设备上的服务没有备份,重启设备可能会影响服务。因此需要在设备重启前做好评估,避免主动重启对业务造成影响。如果重启设备造成的中断时间可以接受,可以定期重启设备,比如半年或者一年。如果设备使用的软件版本比较旧,也可以用来升级软件。不要以为它重新启动了。设备是耻辱。就像一辆马拉的大车。长途跋涉,马也需要休息。一些数据中心每年都会进行一到两次故障模拟演练,其中包括重启设备以检查数据中心系统的稳定性和冗余性。有这个演练非常好,不仅可以让设备暂时休息一下,还可以及时发现数据中心运行的漏洞,进行修复。不要被动等问题严重了再考虑重启设备进行恢复。这往往会给企业造成严重的损失。加强设备的运行管理数据中心的设备很多。不同的设备来自不同的制造商并使用不同的功能。这些设备的操作人员必须严格管理。避免不熟悉设备的人误用设备。这些人为的失败数不胜数。因此,需要对访问设备的权限进行控制。不同的设备由不同的人管理,由最熟悉的人控制。对于一些设备变更操作,需要提前评估配置是否符合规范,是否存在已知风险。让设备制造商也参与变更操作,防止出现变更不符合预期的情况。数据中心对登录设备的管理非常严格,对不同的人员有不同的权限要求。如需申请相应的上级访问权限,需向高层领导申请,并说明清楚操作原因和原因。这是数据中心运维管理的重要组成部分。隔离/下线/重启三斧数据中心在运行过程中出现故障,第一时间是恢复业务,第二时间是故障原因。因此,运维人员在处理故障时,首先要明确故障部位。需要明确的是,我们还必须尝试恢复业务。这时候常用的就是这三把轴:隔离、下线、重启。这三个轴都是针对特定的设备,因为数据中心的故障都是来自特定的设备,而稳定运行时出现的故障,基本都是某台或某台设备出现问题。隔离就是只根据业务故障的范围,将故障的设备端口、VLAN或流量切换到其他正常通道。如果不能明确界定故障范围,可以考虑下线设备。设备业务切换到其他设备。比如某台服务器的业务出现异常,将这台服务器上的虚拟机迁移到另一台服务器上,以尽快恢复业务。有时,设备之间没有备份,无法进行离线处理。例如,一些核心网设备需要离线做大量的业务切换工作。这时候可以考虑重启设备看能否恢复。重启后基本可以恢复,短时间内可以继续正常运行,为分析问题原因赢得了宝贵的时间。一方面继续分析原因,另一方面让数据中心业务继续正常运行。找到问题原因后,就可以对隐患进行补救。数据中心运维人员在日常工作中也逐渐摸索出了很多经验。这些都是一点一滴的经验教训,是数据中心的宝贵财富。有些法规虽然没有深厚的技术支撑,但非常实用。这些也是运维人员在面对数据中心故障时想到的方法。俗话说“说粗话不粗话”。这些不成文的规定看似简单,但在关键时刻却非常有效。
