当前位置: 首页 > 科技观察

监控系统是数据中心的一面镜子

时间:2023-03-19 00:59:46 科技观察

监控功能是数据中心的重要组成部分。通过监控系统,可以全面了解数据中心的整体运行情况,进行有效的控制和管理。虽然出现了无人值守数据中心、软件定义数据中心等新概念,但控制权只是交给了机器,系统仍然需要对数据中心进行监控,收集各种运行参数,提供给控制中心.系统要完成数据的采集、分析、处理、存储、展示,让用户实时掌握数据中心的基础设施运行情况。由于数据中心本身具有大规模、高动态的特点,监控数据中心的采集也面临着一些挑战。需要不断丰富监控手段,收集能够真实反映数据中心运行状态的数据,而不是获取虚假图像。监控好数据中心需要具备三个特点:实时性,实时采集数据中心的监控数据,便于对数据中心进行及时的控制和管理,这种实时性包括周期性轮询收集数据的时间,这个轮询周期越短,实时性越高。周期越短,一次采集的数据不宜过大,部分数据由各种运行设备实时上报。可扩展性,在整个生命周期中,数据中心不可能一成不变,随着业务量的扩大,也需要不断扩展。监控数据采集系统要便于调整,对现有或新增设备增加新的监控指标,根据数据中心的变化不断调整监控系统,不让监控系统成为摆设。智能化,监控系统不仅仅是采集数据,它需要具备数据分析的能力,同时还要过滤掉采集到的无效数据,利用大树法则获取最有效的数据。比如采集机柜的环境温度,一个机房会有上百个机柜,每个机柜的温度可能都不一样,有的甚至相差很大。这时,不可能用点覆盖表面。多次采集,根据采集到的数据加入一些权重算法,从而计算出合理的数据。数据中心系统众多,这也使得监控??系统非常庞大,监控系统的设计也极其复杂。以普通数据中心的监控系统为例,包括供配电监控、环境空调监控、安防监控、运行数据监控、画面显示中心、管理监控等。监控体系比较完善,监控项目比较多。表1列出了供配电监测的部分内容。通过对供配电的监控,可以随时了解数据中心供电系统的运行情况。一旦市电停电,可及时切换到电池或备用发电机组,避免业务长期中断。监控数据也可以发送到运维数据中心,运维人员可以根据数据进行工作部署。表2列出了空调环境监测的主要内容。通过对空调环境的监控,可以及时了解数据中心的散热情况和内部运行环境,为运行设备提供良好的运行环境,避免过冷或过热环境影响运行寿命设备。数据中心内设备产生的热量非常大,需要空调及时排出热风,否则对数据中心的危害很大,甚至可能引发火灾事故。这方面已有历史教训。在封闭性较好的数据中心机房,如果空调停止运行半小时,部分设备就可能宕机,部分设备的自动保护不够好。持续的高温可能导致线路短路,产生火花,引起火灾。有了全面的空调监控系统,就可以避免这种情况。表3列出了数据中心屏显中心的主要监控内容。一个往往是一个巨大的会议厅,大屏幕前面会显示各种数据。这些数据代表了各个系统和业务的运行情况,一旦出现故障,可以及时在屏幕上显示出来。屏幕显示中心的所有数据均来自各个监控系统。一般来说,屏幕展示中心也是各界领导经常光顾的地方。通过屏幕显示中心,他们可以了解整个数据中心的运行状态以及数据中心的各种运行设施。还有一个监控系统非常重要,就是管理监控,主要作为数据中心有效管理的参考。表4列出了管理和监测涉及的主要内容。这部分一般由管理人员把控,对数据中心进行全面管理,不仅是业务层面,还有人员培训、考核、考勤等。除了以上监控指标外,还有消防、安保、日志管理、视频监控、门禁系统、账户管理等等,数据中心需要监控的东西很多。以上只是对最关键部分的介绍。这些监控系统涉及到很多专业技术,有些设计非常复杂,需要专业的团队才能完成部署。构建一个完整的数据中心监控系统的难度不亚于构建数据中心本身。数据中心监控系统的好坏也直接决定了数据中心的运行水平。因此,如果要对数据中心进行评估,监控系统往往是考察的重要内容,它是数据中心水平的直接体现。数据中心监控的基本目标是以尽可能低的运营成本实现尽可能高的系统可用性。高可用是数据中心级别性能最重要的标准,监控系统就像是高可用管理的一副眼镜。有了它,整个数据中心的运行情况一目了然,实现了高可用的目标。