当前位置: 首页 > 科技观察

数据中心运维的祖训“没有麻烦,就没有故障”

时间:2023-03-18 21:03:44 科技观察

“没有麻烦,就没有故障”这句话很粗糙,但是很有道理,尤其是在运维方面。据相关咨询机构统计,数据中心70%的故障都是人为故障,即与人的活动有很强的关联性,可见人对数据中心的危害有多大。人为过失也可分为有意和无意。有意是指出有些操作会导致数据中心故障,但还是坚持去做。这些人往往希望通过导致数据中心运行瘫痪来达到不可告人的目的。这种故障占人为故障的80%。是无意的。数据中心本身就是一个复杂而庞大的系统。运维人员不可能精通所有技术细节。当他们接触到不熟悉或不了解的地方时,操作很容易导致意想不到的结果。还有很多设备软件质量不高,重复操作和分发容易导致软件出现问题,导致业务中断。这种情况在数据中心并不少见。数据中心有数千台设备,数量庞大。移动它就会出现问题。因此,不要轻易修改稳定的数据中心,让它处于故障状态。跑下去。众所周知,在遇到一些重大节日和活动时,大型数据中心会封锁网络,停止一切运营和活动。目的是为了减少故障的发生,降低人为操作的风险,降低触发BUG的风险。这种方法效果很好,除了可能出现一些硬件故障外,几乎不会出现其他类型的问题。我们都知道乌龟的寿命是非常长的,可以活上百岁,幼而飘飘,因为乌龟很少活动,而且行动缓慢,大大延长了它的寿命。数据中心的运维也喜欢安静不动,少动小心,这样可以最大程度地减少故障的发生。金融银行行业的数据中心对可靠性要求很高。为了避免出现故障,银行的数据中心建立了严格的操作系统。提前检查,甚至在模拟环境中验证没有问题才开始在现网实施操作。银行业的数据中心运作最为规范,使得数据中心的可靠性最好。但运维为了快速响应业务需求,提高资源利用率,不得不频繁折腾,不动声色基本做不到。一个数据中心每天晚上可能会有排程变更,还有设备软件升级、配置优化、设备更换等,数据中心总是有无穷无尽的变化,在运行过程中难免会出现一些新的问题,如结果,数据中心始终无法稳定,业务经常受到影响。这实际上违背了运维祖训的宗旨。数据中心需要的技术知识太多,涉及几十个学科,没有人能全部掌握,完全掌握一个也很难。这个时候制定相应的操作,知识有限。Weekly总会有没有考虑到的地方,如果有任何遗漏,可能会导致操作过程中出现问题。改手术没有人有绝对的把握,凡事都可能有意外,就像手术一样,再小的手术也有风险,家属必须签字,这样才能免除操作者的责任。发生事故时的责任。既然不能避免折腾,那就想办法防止折腾出问题。首先是分而治之。分而治之就是将高风险与低风险、高重要性与低风险、简单与复杂、频繁变化与不频繁变化分开。归根结底,他们在做两件事:封装复杂性和隔离变化。运维架构层的划分在业界非常普遍,比如应用服务器和数据库服务器的分离,事务数据库和用户数据库的分离,生产环境和测试环境的隔离。数据中心是由许多小系统组成的,它们之间应该是松耦合的,完全隔离的。如果这么小的系统出现故障,影响是局部的,不会影响全局。二是管人。要减少人为失误,就要加强对人的约束和管理。不同技术水平的人可以做不同的操作。新手如果想在线操作,必须有经验丰富的工程师指导。要制定详细的人员管理规章制度,对运维人员形成约束力,对运维人员进行考核、监督和管理,强化运维人员责任,奖励和保障惩治。制定严格的规章制度。一般数据中心需要24小时对外提供服务,所以要给数据中心人员充足的休息时间,准时上下班,避免长时间工作、劳累工作,以及减少错误。可能性。三是管家。当数据中心需要变更和优化运营时,需要运维团队人员进行整体讨论,分析预测的风险,确保运营不会影响正在运行的业务。每一次改变都是通过整个技术团队的讨论做出的决定,而不是个人行动,这可以最大限度地减少技术和人为故障。有必要制定回滚计划。一旦出现异常情况,立即回滚,分析原因后再进行二次变更。毕竟运维人员不是设备专业的,对设备内部的处理和实现也不是很清楚。对于重大变更,可以邀请设备制造商的技术人员参与和支持,降低操作失误的风险。每一次操作都要做好充分的准备,必要的模拟演练、业务提前搬迁、应急通道准备等,以降低失败的风险。“没有烦恼,就没有失败”是一句金言,听起来很有道理,但做起来其实非常难。数据中心是数据高速流动的地方,业务需求不断变化。为了满足业务部署和发展的需要,数据中心的变化和麻烦根本无法避免。“不麻烦”只是一种理想。地位。不过,确实需要主动尽可能降低数据中心的运行频率,尽量少走动,这样可以大大降低故障发生的概率。人是数据中心活动中最重要的因素。没有人的参与,数据中心从何而来,但人同时也给数据中心带来成长的烦恼。人在运维过程中仍然起着举足轻重的作用。作为数据中心的运维人员,我们要时刻牢记老祖宗的教诲。