虽然有无人值守数据、软件定义数据中心、各种智能数据中心,但这些数据中心本质上都离不开人。参与和引导,这些设备也可能处于无序工作状态。就像前段时间,有人讨论了机器人和人类的关系,以及未来谁来代替谁的问题。对于数据中心来说,人在数据中心的运行周期中仍然扮演着最关键的角色,数据中心离不开人。数据中心投运后无需闲置。它仍然需要人们对其进行监视和管理。因此,无论数据中心的自动化水平有多高,技术有多先进,都需要对其进行监控。监控是整个数据中心生命周期中最重要的部分。及时预警,事前发现问题,事后提供详细数据,便于跟踪定位问题。一切信息数据可追溯、可查。这就是监控的作用。通过监控获得的信息可以提高数据中心的运行效率和运维水平,提高生产力。因此,监控是数据中心的眼睛。数据中心监控的技术和工具数不胜数。从最初的SNMPMIB网管到现在的云计算工具,可视化、图形化、自动化的工具真的很多,而且很多都是开源免费使用的。例如:MRTG(MultiRouteTrafficGrapher)、Ganglia、OpenTSDB、Zabbix都是免费的。当然还有很多问题需要自己修改。还有一些专业的定制软件,需要付费购买。数据中心设计了一些专用的监控软件。无论是哪种软件,其本质都是从数据中心的各个运行设备中获取与运行相关的数据信息,从而判断数据中心是否正常运行,并将这些信息传递给管理人员,由管理人员进行决策.如果是简单的切换动作,也可以交给监控软件自己完成。因此,对于监控来说,主要要做六件事:采集、存储、分析、显示、报警、处理。如果一个数据中心监控系统能够完成这六个部分,那么这个数据中心一定很棒。管理人员可以每天喝茶。具体来说,对于这六个部分,收集是指通过SNMP、ICMP、设备命令等方式对各种设备进行数据收集,收集的数据量可能是海量的,而且数据越多越好,这样更有利于判断和分析问题.为了准确性;存储是指对收集到的数据进行定期存储,以免丢失,方便日后查阅;数据分析是指当我们事后需要回顾分析故障时,对这些数据进行分析,借助大数据、云计算等新技术,可以对收集到的海量数据进行分析,还可以将这些数据以图形化、概率化的方式展示出来便于分析的方式;数据展示是指将数据中心运行的各种实时参数(例如:流量图、业务高峰、网络互联、环境状况等)显示在网页或大屏幕上,一目了然一眼。很多数据中心都有这么大的显示屏,在大屏幕上显示数据中心各个系统的运行状态和关键数据。哪里有问题,大屏幕上就能第一时间看到,便于管理人员及时发现和排除。问题。监控告警是指为这些监控数据设置安全阈值。一旦采集到的数据不满足安全阈值要求,将立即发出监控告警,包括电话告警、邮件告警、微信告警、短信告警、告警升级机制。告警处理是指当收到告警后,我们需要根据故障的级别进行处理,如:重要紧急、重要不紧急、不重要紧急、不重要不紧急等,并配合相关人员根据故障程度迅速处理。那么,数据中心监控哪些方面呢?数据中心确实是一个非常复杂庞大的系统,不可能对所有的东西都进行监控。有必要监控数据中心最重要的部分。一般来说,数据中心所有设备的硬件状态都必须被监控。电子设备的硬件故障是不可避免的。一个拥有10万多台服务器的数据中心,几乎每天都会出现服务器故障,因此必须对这些服务器的硬件状况进行监控。监控,发现异常,及时下线故障设备,业务切换到其他服务器继续运行;监控所有设备的CPU、内存、磁盘使用情况、磁盘读写情况,发现异常及时处理;业务服务监控,使用脚本实现你要监控的内容,以及告警和图形功能;网络监控,网络是数据中心的重要组成部分,一般由数百台网络设备连接而成。需要对这些设备和链路进行监控。进行监控,发现异常及时报警;还有安全监控、业务监控、流量分析、可视化、自动监控等,一个完整的监控系统要做的工作很多。但是一定要注意,监控一定不能大而空。做不完就做一部分,监控数据中心的一部分,做好这一部分。在很多情况下,收集的数据不正确或没有收集到关键数据。问题不是监控系统反映出来的,而是业务层面反馈的。此时业务已经受到影响,监控系统也没有发挥应有的作用。监测体系要全面,但也要注意数据收集和分析的准确性。监控是数据中心的眼睛,其对数据中心的重要性不言而喻。就像人走路时眼睛离不开一样,每个数据中心在整个运行周期中都在不断完善和建设自己的监控系统。监控的目的是及时发现数据中心存在的问题,及时定位和解决问题。当然,还得事后总结。如果监控做不到这一点,那么它就不是一个好的监控系统。监控系统就像数据中心的体检医师。如果数据中心有什么不舒服,会第一时间反映到监控系统中,让监控发挥应有的作用。有了监控系统,人的作用就真的没那么大了,只要人做出决定,监控就会记录数据中心的运行状态,并及时报警,让人去处理。一个好的监控系统只是把YES或NO的选择留给人去做,所有的信息和数据监控系统都已经分析过了。
