数据中心的正常运行离不开运维,运维在数据中心的作用越来越重要。很多人也在讨论新的运维技术,通过技术更新进一步提升运维水平。传统的运维大部分是被动地处理问题。系统搭建好,设备上线后,它会把守这些设备,确保不出问题。如有问题,会迅速响应解决。数量体现在问题的发生上,解决问题的能力是运维能力的一个重要方面。然而,往往来不及弥补,损失已经发生。不管怎么挽回,都只能尽量减少损失,止损。新的运维技术都提倡提前进行运维工作,做到未雨绸缪,防患于未然。状态运维就是其中之一。所谓状态运维技术,就是一种预防性运维方法。基于设备的实时运行状态和技术参数,对设备的健康状态进行评估,进而制定相应的运维行动计划。状态运维是根据设备日常运行记录、定期巡检记录和在线状态监测,提供设备当前和历史信息。通过对这些信息资料进行分析处理,判断设备是否处于健康运行状态和可能发生的变化趋势,及时发现故障特征,在事故发生前采取合理的运维措施,预防突发性故障,确保设备处于正常运行状态。始终处于健康的运行状态。Status运维就是在故障发生前做好运维工作,通过故障前的一系列表现提前发现问题。这就像地震预报。虽然地震预报技术不够准确,但往往可以提前一定时间查明可能发生地震的地点,从而在地震发生前转移人员和物品,避免人员伤亡。.大数据和人工智能是有状态运维不可或缺的技术。如果不是这两种技术的出现和普及,状态运维的概念是不可能产生的。最先进的运维技术依赖于大量的历史数据,包括设备之前的所有状态,发生过的所有故障,以及日志信息、告警、故障表现等大量数据,和设备的特性。如果收集数据中心所有设备的信息,那一定是海量数据,必须从这些海量数据中找到一定的必然规律。这就需要借助大数据的技术分析来得出一些结论。例如,当一个设备内部端口DOWN告警时,你知道它会影响网络转发流量,所以你需要隔离这个设备,让网络流量不流经这个设备;例如,如果您发现设备的CPU很高,则设备的状态效率会降低,在设备瘫痪之前,需要找到CPU高的原因,降低CPU,避免故障的发生。通过大数据技术可以防止状态运维。运维状态也需要依靠人工智能对设备未来的工作状态进行一定的预测和分析。例如,设备内部温度每升高1度,状态效率就会下降20%。类似于这种预测分析。俗话说“冰冻三尺,非一日之寒”,一切都是从量变到质变的发展过程。在故障发生之前,设备或多或少都会有一些异常的表现。可能有人会说,如果一个设备出现硬件故障,那怎么预测呢,天知道明天哪个设备出现硬件故障。其实监测和预测的手段还是有的,只是目前的监测技术还比较简陋,深度不够。如果对设备的CPU时钟、Catch内存、指令计算过程都进行监控,只要CPU运行出现偏差,就会发现任何一个CPU故障都有一个过程,不可能所有模块都组件一次全部失效,在它的CPU完全死掉之前,抓到异常信息就可以了,可以让业务瞬间迁移到其他设备上,并且这个设备是隔离的,避免等到CPU完全死掉,而业务处理前挂断。通过人工智能技术赋能最先进的运维,实现预测性运维。先进的运维技术不仅可以保证设备持续健康运行,减少故障时间,提高生产率,还可以大大降低数据中心的财产损失和设备运维成本。扩大因故障导致的设备停机时间,改善库存和供应链,并增加数据中心的成本。对提高数据中心的经济效益具有现实和重要的指导意义。现在,越来越多的人关注有状态的运维。数据中心不再允许随意中断业务。许多技术专家都在绞尽脑汁为数据中心的稳定运行建言献策。有状态运维是数据中心必经之路。但目前数据中心运维水平存在较大差距。运维防不胜防,恐怕无人能及。至于断层,即使是亚马逊、阿里云等科技巨头也无法避免。因此,基于状态运维的发展方向是正确的,但仍需努力。需要大量的历史有效数据,而不是无用的垃圾数据;需要适合数据中心环境的高级人工智能技术,而不是随便的人工智能。如果将该技术应用到数据中心的设备上,预测的结果很可能会适得其反,成为运维工作开展的绊脚石。最怕的就是天天没故障的时候预测,有故障的时候不报告。这种技术是没有必要的。.状态运维作为未来数据中心运维的发展方向,必将给数据中心带来巨大的收益。其实早在20年前的1998年,美军就提出了故障预测和健康管理PHM的概念,将设备从常规运维转变为预测性运维,但当时的计算机技术并不发达足够的。算力也低,很多想法不用技术也能实现。如今,云计算、大数据、人工智能计算等新技术层出不穷,计算能力也得到飞速提升。即使单台电脑的计算速度有限,也可以通过云计算将多台设备组合起来同时计算。存在计算能力限制的问题。Status运维要出炉了,又来找人了。虽然很多技术还有待完善,数据中心的基础水平可能还不够,但这并不妨碍这项技术的发展,有助于数据中心的运维。
