在新技术层出不穷的今天,数据中心的运维一直没有得到足够的重视。如果数据中心没有问题,对运维工作采取默认的态度,但如果出现一系列问题,付出的工作可能就泡汤了,工作的表现就有点人品了。事实上,俗话说“古罗马不是一天建成的”,数据中心的故障,甚至是致命故障,往往不是突然发生的,而是长期忽视日常工作造成的。悲剧。如何运维才能体现工作的价值,如何运维才能降低数据中心故障的风险。在这样的需求背景下,智能运维应运而生。数据中心运维工作主要包括配置管理和监控,运维人员每天要进行大量的模块维护操作。运维操作设计程序更新、配置修改、数据传输和各种自定义命令的执行。在运维过程中,这些模块大多通过人工操作或编写脚本的方式更新到生产环境中。人工操作难免会出现误操作、效率低下,甚至在线模块操作需要排队的情况。另一方面,对于数据中心运行的监控,数据中心内运行着成千上万的各种设备,经常会出现各种问题。当故障反映到业务层面时,实际上已经造成了损失,所以在严重故障发生之前,如果能够及时发现并排除部分设备的异常性能,就可以降低故障对数据中心的影响,而数据中心的监控就是把危险消灭在摇篮里。但是,数据中心的设备、应用、组网中包含很多小系统,非常复杂。如果靠人去查,不仅效率低,而且容易漏掉。而通过智能化运维,可以通过机器查看所有运行中的设备,并对这些运行中的设备进行监控,发现隐患及时报警,运维收到这些告警后立即采取行动。智能运维不仅将运维人员从繁琐的工作中解放出来,而且大大提高了运维工作的效率,是未来数据中心运维发展的主要方向。这里定义所谓的智能运维,就是用机器代替运维人员。以最少的人为干预,结合脚本和第三方工具的使用,保证业务7*24小时高效稳定运行,这是所有数据中心运维工作的最终目标。随着数据中心的规模越来越大,人工运行数据中心几乎是不可能的。这带动了智能运维的快速发展,也出现了很多智能运维软件。比如:监控系统的nagios,流量监控的cacit,集群监控的ganglia,ping监控的ipmonitor或者xping,配置管理的puppet等。这些软件都是开源的,可以根据自己数据的业务特点进行修改中心形成自己的运维工具。一个智能运维工具很难涵盖所有设备和所有可能存在的风险,因为数据中心涉及的设备和技术太多,而且这些技术都在不断更新。对数据中心运维的要求是:预警:在故障发生之前,管理人员要能够随时随地接收到告警信息,及时处理问题,杀死隐患摇篮中的故障;事中恢复:不可预见的情况,再完美的计划也可能出现意外的故障,为了保证业务能够在最短的时间内恢复,关键数据不因故障而丢失,我们需要一个完整的备份计划去处理它;吸取教训以避免二次故障。实现这样的运维需求并不是一件容易的事。这需要一支经验丰富、高效的运维服务团队来完成。随着我们业务系统和业务量的不断增加,成熟的运维服务基本都会依赖第三方工具来高效部署和运行软件。智能运维要做到预警、事中恢复、事后归档。事实上,还有很多工作需要完成。首先,需要对重要设备实施主动监控,如路由器、交换机、防火墙等,当这些设备在运行过程中出现告警时,应及时通知运维人员。对于一些简单的告警智能工具,可以自行处理和修复,并将处理结果直接反馈给运维人员。其次,新服务部署或配置变更检测也应该自动化。新业务的部署涉及到很多设备和应用的调整。这涉及到大量需要智能化工具替代的人工操作。如果各种设备的配置参数发生变化,也会触发变化过程并传递给相关运维人员。通过自动检测确认并协助运维人员发现和维护配置。第三,维护事件提醒是自动化的。通过对设备和应用活动的实时监控,当发生异常事件时,系统自动启动告警和响应机制,第一时间通知相关运维负责人采取进一步行动。第四,系统健康检测自动化。定期自动对设备硬件和应用系统进行健康检查,配合运维服务团队对系统进行健康检查和监控,及时发现系统级运行风险。最后自动生成运维报告,定期自动收集和分析系统的日志,记录系统运行状态,通过周期性的周期性提供运维服务的可用性、性能、系统资源利用状况等定期分析报告监控、分析和汇总,以便数据中心根据运行状况进行下一阶段的投资。事实上,很多企业已经看到了数据中心运维的市场机会,推出了一些智能化的工具。但是,由于每个数据中心都有自己的特点,很多工具并不适用,需要大量修改。真正能给数据中心运维带来革命性变革的工具还没有出现,因为智能运维还有很长的路要走。在可预见的未来,运维的作用会越来越重要,数据中心的运维工作也会越来越重。智能运维不仅可以满足我们对数据中心运维的要求,解放生产力,还可以让我们的运维管理更加规范化、规范化,实现真正意义上的智能化运维。
