数据中心运维的祖训“没有麻烦，就没有故障”

时间：2023-03-18 21:03:44 科技观察

“没有麻烦，就没有故障”这句话很粗糙，但是很有道理，尤其是在运维方面。据相关咨询机构统计，数据中心70%的故障都是人为故障，即与人的活动有很强的关联性，可见人对数据中心的危害有多大。人为过失也可分为有意和无意。有意是指出有些操作会导致数据中心故障，但还是坚持去做。这些人往往希望通过导致数据中心运行瘫痪来达到不可告人的目的。这种故障占人为故障的80%。是无意的。数据中心本身就是一个复杂而庞大的系统。运维人员不可能精通所有技术细节。当他们接触到不熟悉或不了解的地方时，操作很容易导致意想不到的结果。还有很多设备软件质量不高，重复操作和分发容易导致软件出现问题，导致业务中断。这种情况在数据中心并不少见。数据中心有数千台设备，数量庞大。移动它就会出现问题。因此，不要轻易修改稳定的数据中心，让它处于故障状态。跑下去。众所周知，在遇到一些重大节日和活动时，大型数据中心会封锁网络，停止一切运营和活动。目的是为了减少故障的发生，降低人为操作的风险，降低触发BUG的风险。这种方法效果很好，除了可能出现一些硬件故障外，几乎不会出现其他类型的问题。我们都知道乌龟的寿命是非常长的，可以活上百岁，幼而飘飘，因为乌龟很少活动，而且行动缓慢，大大延长了它的寿命。数据中心的运维也喜欢安静不动，少动小心，这样可以最大程度地减少故障的发生。金融银行行业的数据中心对可靠性要求很高。为了避免出现故障，银行的数据中心建立了严格的操作系统。提前检查，甚至在模拟环境中验证没有问题才开始在现网实施操作。银行业的数据中心运作最为规范，使得数据中心的可靠性最好。但运维为了快速响应业务需求，提高资源利用率，不得不频繁折腾，不动声色基本做不到。一个数据中心每天晚上可能会有排程变更，还有设备软件升级、配置优化、设备更换等，数据中心总是有无穷无尽的变化，在运行过程中难免会出现一些新的问题，如结果，数据中心始终无法稳定，业务经常受到影响。这实际上违背了运维祖训的宗旨。数据中心需要的技术知识太多，涉及几十个学科，没有人能全部掌握，完全掌握一个也很难。这个时候制定相应的操作，知识有限。Weekly总会有没有考虑到的地方，如果有任何遗漏，可能会导致操作过程中出现问题。改手术没有人有绝对的把握，凡事都可能有意外，就像手术一样，再小的手术也有风险，家属必须签字，这样才能免除操作者的责任。发生事故时的责任。既然不能避免折腾，那就想办法防止折腾出问题。首先是分而治之。分而治之就是将高风险与低风险、高重要性与低风险、简单与复杂、频繁变化与不频繁变化分开。归根结底，他们在做两件事：封装复杂性和隔离变化。运维架构层的划分在业界非常普遍，比如应用服务器和数据库服务器的分离，事务数据库和用户数据库的分离，生产环境和测试环境的隔离。数据中心是由许多小系统组成的，它们之间应该是松耦合的，完全隔离的。如果这么小的系统出现故障，影响是局部的，不会影响全局。二是管人。要减少人为失误，就要加强对人的约束和管理。不同技术水平的人可以做不同的操作。新手如果想在线操作，必须有经验丰富的工程师指导。要制定详细的人员管理规章制度，对运维人员形成约束力，对运维人员进行考核、监督和管理，强化运维人员责任，奖励和保障惩治。制定严格的规章制度。一般数据中心需要24小时对外提供服务，所以要给数据中心人员充足的休息时间，准时上下班，避免长时间工作、劳累工作，以及减少错误。可能性。三是管家。当数据中心需要变更和优化运营时，需要运维团队人员进行整体讨论，分析预测的风险，确保运营不会影响正在运行的业务。每一次改变都是通过整个技术团队的讨论做出的决定，而不是个人行动，这可以最大限度地减少技术和人为故障。有必要制定回滚计划。一旦出现异常情况，立即回滚，分析原因后再进行二次变更。毕竟运维人员不是设备专业的，对设备内部的处理和实现也不是很清楚。对于重大变更，可以邀请设备制造商的技术人员参与和支持，降低操作失误的风险。每一次操作都要做好充分的准备，必要的模拟演练、业务提前搬迁、应急通道准备等，以降低失败的风险。“没有烦恼，就没有失败”是一句金言，听起来很有道理，但做起来其实非常难。数据中心是数据高速流动的地方，业务需求不断变化。为了满足业务部署和发展的需要，数据中心的变化和麻烦根本无法避免。“不麻烦”只是一种理想。地位。不过，确实需要主动尽可能降低数据中心的运行频率，尽量少走动，这样可以大大降低故障发生的概率。人是数据中心活动中最重要的因素。没有人的参与，数据中心从何而来，但人同时也给数据中心带来成长的烦恼。人在运维过程中仍然起着举足轻重的作用。作为数据中心的运维人员，我们要时刻牢记老祖宗的教诲。

上一篇：电子垃圾：物联网的另一面

下一篇：如何提升运维效率？学会这4种思维方式，你就厉害了~

数据中心运维的祖训“没有麻烦，就没有故障”相关文章