当前位置: 首页 > 科技观察

如何在数据中心进行日志分析

时间:2023-03-14 18:28:53 科技观察

在数据中心,几乎所有的系统和应用程序都会产生日志文件。日志是记录行为、条件和事件的带有时间戳的足迹。通过分析日志,往往可以提前预知数据中心运行的潜在风险,并在故障发生后,通过日志信息找到故障原因。就像飞机的黑匣子一样,是追查事故原因的重要手段。然而,数据中心内设备数以万计,安装的软件和应用程序复杂多样。每个设备、每个应用程序都有自己的日志打印,因此数据中心每天都会产生大量的日志信息,即使是最辛苦的管理员,一生也无法一一完成日志的筛选。大型数据中心运行中不断产生日志数据的速度已经远远超过了人类分析的速度。传统的数据分析方法是每周或每天根据列表查看日志文件。这种方式早已不能满足现在数据中心的要求,于是出现了很多日志分析工具和网管软件。这些分析软件用于检查日志信息,以替代人工检查,提高日志分析速度。这也是目前的数据。日志分析是中心惯用的做法,但实际上日志是可以提前通过的,很少能预知到隐患。那么如何利用日志信息来提高数据中心的可维护性,或者通过分析日志来降低数据中心故障发生的概率,本文将详细讨论。首先,日志分析的作用取决于日志信息的准确性。如果日志信息本身不可信,那么分析结果自然也不可信,所以必须对日志信息进行筛选。数据中心内的大部分设备都可以打印日志,部分设备还可以根据需要将日志发送到网络中特定的日志主机设备厂商。这些设备有很多日志打印开关,可以过滤日志信息,让特定数据中心关注哪些模块,打开,否则关闭,避免产生一些不相关的无用日志。另外,日志信息本身的准确性也很重要。比如设备报TheboardisFault,是板子坏了,还是软件重启了,是哪个slot的板子坏了?一条日志消息必须包括整个事件的全貌,而不是让用户去猜测。这就需要数据中心设备厂商提供标准的日志输出设计系统。日志简单明了,能说明问题而不是看不懂。这样,出现问题的时候或者出现问题之前打印日志就可以了。恐怕故障已经发生了,但是没有报log,让人无法分析。向外界报告无用的日志。如果你遇到这样的设备或系统,你应该把它们扔进垃圾桶。这不是给数据中心添乱吗?因此,必须保证日志信息的准确性。打印的每条日志都需要数据中心管理员的注意,并且必须采取一定的预防措施。其次,在很多情况下,有些日志到底有没有用,我们是很难定义的,所以经过裁剪判断,还是会有大量的日志输出。比如我拔插一个光模块,肯定有log打印,端口UP/DOWN也会有log打印。如果这些日志没有打印出来,一旦是无意的端口UP/DOWN,需要检查互连端口是否有问题,光模块是否有问题,光纤是否有问题opticalframeorthejumperframe等,所以很多时候有些日志没有报问题,但是一定要打印出来,这个时候需要筛选。因为大型数据中心的设备太多,需要收集的日志信息还有很多,每年都靠人工巡检不太现实。网上有很多这样的日志分析工具,比如SiteFlow、IIS日志查看工具、Lightyear日志分析工具等,这些工具可以收集多种设备的日志信息,并分析关键字过滤分类日志:提示、一般、警告、fatal等级别,支持warning。日志可以实时通知数据中心管理员,数据中心管理员会检查收到的日志,并根据日志的具体内容启动相应的解决方案。如不好办,可立即召集相关技术人员商讨,商讨对策。再次,日志信息准确,也会让管理员及时知道哪些日志是哪些设备上报的,哪些需要及时处理,但这还不够。未来,拥有数千个数据中心的数据中心,往往只需要几个人来管理和维护。这些日志分析工作只是这些人日常工作的一小部分。这些人还有许多其他事情要做。没有时间关注输出。很多时候是已经出现了故障,再查看故障发生时和之前是否有打印日志,但是故障已经发生,影响已经产生。看日志无非是找故障原因,有时候希望通过故障的原因对数据中心进行改进和优化,避免类似的故障再次发生,这不是一个好的做法。最好的方式是在故障发生前或刚发生故障后通过日志获取故障事件,并通过自动化软件自动启动事先设定的恢复计划,避免故障发生或将故障影响降到最低。将日志和自动恢复动作相结合,通过软件自动化判断当前收到的日志的严重程度,并根据故障的级别执行相应的动作,使数据中心自动恢复运行。最后,更多的设备仅仅依靠日志分析,并不会起到太大的作用。还需要借助流量分析工具和命令脚本工具,分别采集一些数据中心运行信息。此信息通常可以包含比日志更多的信息。只有将这些信息与日志结合起来进行分析,才能得到更好的分析结果。日志只是获取数据中心运行状态的一种手段,但不是唯一的手段。需要通过各种信息对数据中心的运行状态进行综合分析和诊断。日志分析流程是:收集—>筛选—>自动执行动作,这样三个步骤,其实很多数据中心都达不到这样的要求,尤其是最后一部分,还是要靠人来执行动作关键时候,与其说是自动化软件,不如说数据中心软件的发展还远没有达到如此高度自动化的水平,尤其是在数据中心等信息技术高度发达的地方,正是因为这些不完善,数据中心技术才得以继续发展。发展和进步。