当前位置: 首页 > 科技观察

数据中心如何面对日志海洋

时间:2023-03-18 12:46:44 科技观察

数据中心有成千上万台设备,每台设备在运行过程中都会产生各种日志信息,有的是无关紧要的,有的则是故障的预警,及时发现异常日志可以减少故障的发生,保证业务的顺利运行。一方面,数据中心要求设备厂商通过日志打印出设备运行的故障信息,让数据中心运维人员通过日志了解设备故障,提前做好准备;确定哪些需要注意,哪些不关心,哪些需要立即处理。但是由于数据中心设备较多,如果每台设备都输出一条日志信息,那么10000台设备就有10000条日志。人工检查是不可能的。那么数据中心是如何高效处理这些海量日志信息的呢?数据中心的日志主要来自三个方面:一是设备层,对数据中心的各种设备进行监控,如:交换机、路由器、安全设备、服务器、UPS、精密空调等,实现物理层实时监控和数据采集;二是系统层,面向数据中心主机(Linux主机和x86服务器)、操作系统(Linux/Winwdos)、数据库(主流的Oracle、Mysql等)、中间件、存储系统、应用软件API、HTTP端口、备份系统、容灾系统、数据同步系统、虚拟化系统、云平台等进行实时监控、预警分析、故障定位;第三是业务层,收集一定的业务数据,比如用户数、连接数、业务并发量、日志量等,通过多维度的关联分析,分析预测未来商业运作。这些日志有的是在设备运行过程中主动输出的,有的是运维人员在设备上通过特定命令收集的。通过分析这些日志,可以评估设备、系统和业务的运行状态。一旦发现异常,立即采取行动。很显然,海量的日志如果不经处理直接输出到监控平台,就会有很多。一是做好标准化。数据中心必须有一个各种日志的收集系统来收集所有的日志。这些日志来自不同的设备、不同的系统、不同的业务,格式和含义都不一样。数据中心需要标准化,转换成统一认可的格式。这种格式完全由数据中心定义,由技术人员进行转义,形成标准化的日志语言;第二,日志过滤。日志已经标准化,统一,格式统一,但是数量没有减少,需要过滤。过滤的原则是过滤掉低级别的、操作型的、提示型的日志,保留高级别的异常日志。具体到各种设备的日志,设备厂商必须提供全系列的日志信息,并标明表达的优先级和含义,数据中心将这些信息输入知识库,作为过滤判断的条件。知识库是一个逐渐积累的过程,不仅是日志过滤,还有各种故障处理方法、经典案例、解决方案等,经过知识库过滤后,大部分无用的日志被剔除;第三,做压缩和合并,将过滤后的同类日志归一化,尤其是那些已经存在于知识库中的日志。可以在知识库中找到如何处理此类日志。这时候,可以直接按照知识库的指引进行操作。如果没有以前遇到过的日志,就必须交给下一级做进一步的处理。也可以通过压缩和合并再次减少日志的数量;第四,做关联分析。很多日志都是有rootcause的,比如突然有一个正在运行的网络设备上的OSPFlinkisflapping,那么可以查看其他OSPF邻居是否也同时发生了flapping。都是集中连接在一台设备上,这台设备的日志原来是有人在做resetospfactive运维。经过这一系列的关联分析,就可以找到原因,及时将这次人工操作的原因反馈给监控。中心不会出现异常故障告警;第五,做定位分析。排除预期日志后,来到第五步。这时候的日志往往需要深入分析。如果在现有的知识库中找不到解决方案,并且日志本身的告警级别仍然很高,那么即将输出告警。经过这五个步骤,能输出告警的日志就很少了。经过以上五个步骤后,日志能精简到什么程度取决于现有的知识库。知识库的内容越丰富,信息越准确,精简的日志就越少。试想哪个数据中心每天都会出故障,一个月一次大不了,不然早就关闭了,所以数据中心每天都会产生很多日志,而且大部分日志影响很小或者没有影响。当然这种日志过滤也不排除过滤掉一些关键的日志,造成问题,但是没有告警。这是一个逐步完善的过程。如今AI技术如此火爆,在数据中心运维领域也火了起来。其实就是利用AI技术对数据中心的知识库进行学习,从而准确判断新的日志。这个过程太低效,无法手动完成,并且利用机器学习,可以瞬间完成。这也是智能运维研究的一个重要方向,通过AI对数据中心的海量日志进行处理。数据中心如何面对日志海洋?可以概括为三个词:“简单、智能、深度”,减少日志数量,过滤无用或无害的日志;利用已有的知识库进行学习,智能分析日志的影响和后果;深度学习日志,输出学习结果,根据日志进行判断和自主决策,数据中心系统自动执行解决方案:切断流量或隔离故障设备,或调整配置等,并自动处理。在这种情况下,只需要将处理结果反馈给监控平台即可,甚至可以不做日志告警,按正常事件处理。只有当AI不知如何处理时,才会将告警日志交给监控平台进行人工干预。处理完成后,会将当前的日志处理交给AI进行学习。当同类型的日志再次出现时,系统可以自行处理,不再需要人工干预,构建这样一个学习日志系统就是智能运维的开始。