当前位置: 首页 > 科技观察

做好基础设施监控,防止意外停机

时间:2023-03-14 16:27:58 科技观察

【.com快译】基础设施监控是基础设施管理不可或缺的一部分。这是IT管理员防止计划外停机的第一道防线。严重的问题会导致基础设施大量停机,有时还会造成严重的经济损失。监控系统从您的基础设施中收集时间序列数据,以便对其进行分析并预测基础设施和底层组件即将发生的问题。这使IT管理员或支持人员有时间在问题发生之前准备和实施解决方案。一个好的监控系统具有以下能力:1.基础设施性能的长期测量2.节点级分析和告警3.网络级分析和告警4.中断分析和告警5.应对事件管理和根本原因分析(RCA)五个W:○实际问题是什么?○什么时候发生的?○为什么会这样?○什么系统或组件出现故障?○以后需要怎么做才能避免呢?构建强大的监控系统有许多工具可以构建可行且强大的监控系统。唯一的决定是使用哪种工具;答案在于您希望通过监控实现什么以及要考虑的各种财务和业务因素。虽然一些监控工具是专有的,但许多开源工具(非托管软件或社区管理软件)的性能甚至优于闭源工具。本文将介绍开源工具以及如何使用它们构建强大的监控框架。日志收集和分析日志有很大帮助。日志不仅有助于调试问题,还提供丰富的信息来帮助预测即将发生的问题。遇到软件组件问题时,应首先分析日志。Fluentd和Logstash都可以用来收集日志;我选择Fluentd而不是Logstash的唯一原因是因为它独立于Java进程;它是用C+Ruby编写的,得到Docker等容器运行时和Kubernetes等编排工具的广泛支持。日志分析是指对逐渐收集的日志数据进行分析,生成实时的日志指标。Elasticsearch是一个强大的工具。最终,您需要一个工具来收集日志指标,以便您可以使用易于理解的图表和图形可视化日志趋势。Kibana是我的首选。图1.日志记录工作流由于日志可能包含敏感信息,因此需要牢记一些安全要点:?始终通过安全连接传输日志。?记录/监控基础设施应在受限子网内实施。?对监控用户界面(例如Kibana和Grafana)的访问应仅限于利益相关者。节点级别指标并非所有内容都已记录!没错,日志监控软件或进程,而不是基础设施中的每个组件。OS盘、外挂数据盘、ElasticBlockStore、CPU、I/O、网络包、入站出站连接、物理内存、虚拟内存、缓冲空间、队列等在日志中很少见的一些主要组件,除非他们失败了。那么如何收集这类数据呢?普罗米修斯就是答案。您只需在VM节点上安装特定于软件的导出器,并将Prometheus配置为从这些无人值守的组件中收集基于时间的数据。Grafana利用Prometheus收集的数据,实时可视化展示节点当前状态。如果您正在寻找更简单的解决方案来收集时间序列指标,请考虑Etricbeat,这是Elastic.io的内部开源工具,可与Kibana一起使用以替代Prometheus和Grafana。警报和通知如果没有警报和通知,您将无法充分利用监控。除非利益相关者(无论他们在哪里)被告知问题,否则他们无法分析和解决问题,防止客户受到影响,并避免将来发生这种情况。Prometheus使用其内部的Alertmanager和Grafana创建预定义的警报规则,这些规则可以根据配置的规则发送警报。Sensu和Nagios是其他提供警报和监控服务的开源工具。人们使用开源警报工具的唯一问题是配置时间和过程有时看起来工作量很大,但一旦设置好,这些工具比专有工具更有效。然而,开源工具的巨大优势在于我们可以控制它们的行为。监控工作流程和结构良好的监控架构是强大而稳定的监控系统的支柱。它可能看起来像这张图。图2.Devops监控架构***您必须根据您的需求和基础设施选择一个工具。许多企业组织使用本文讨论的开源工具来监控基础设施并确保正常运行时间。原标题:基础设施监控:防御意外停机,作者:AbhishekTamrakar