现在人们普遍认为,监控只是可观察性的一个子集。监控显示您的IT基础架构和应用程序出现问题,而可观察性通常通过分析日志、指标和跟踪来帮助您了解原因。在当今的环境中,需要各种数据流来确定性能问题的“根本原因”,这是可观察性的圣杯,包括可用性数据、性能指标、自定义指标、事件、日志/跟踪和事件。可观察性框架是根据这些数据源构建的,它允许运营团队自信地浏览这些数据。可观察性还可以确定在有或没有人为干预的情况下可以采取哪些规定性行动来响应甚至防止关键的业务中断场景。高级水平的可观察性要求监控从反应性演变为主动性(或预测性),最后是规范性监控。让我们讨论一下这种演变包括什么。事情并不简单首先,了解联合IT运营的当前状态可以揭示挑战。基础架构和应用程序分散在本地和云端的暂存、预生产和生产环境中,IT运营团队不断参与,以确保这些环境始终可用以满足业务需求。运营团队必须兼顾多种工具、团队和流程。人们常常对实施可观察性平台需要多少数据流以及如何让企业内的业务和IT运营团队遵循随着时间的推移改进运营优化的框架感到困惑。为了使监控工作超越指标仪表板并进入这种可观察的状态,它通常分三个阶段发展。反应性、主动性(预测性)和规定性。让我们看看这些是什么。第1阶段:反应性监测。这些是监控平台、工具或框架,用于设置性能基准或规范,然后检测是否违反了这些阈值并相应地发出警报。它们有助于确定防止达到性能阈值所需的最佳配置。随着时间的推移,随着调用或部署更多的混合基础设施以支持越来越多的业务服务和不断扩大的企业范围,预定义的基线可能会发生变化。这可能会导致正常化性能不佳,无法触发警报,并导致系统完全崩溃。然后,企业寻求主动和预测性监控,以便在可能表明即将发生的事件的性能异常之前提醒他们。第二阶段:主动/预测监控。尽管这两个术语听起来不同,但预测监控可以被视为主动监控的一个子集。主动监控使企业能够查看来自环境的信号,这些信号可能是也可能不是业务服务中断的原因。这使企业能够准备补救计划或标准操作程序(SOP)以克服零优先级事件。实施主动监控的一种常见方法是为“经理的经理”提供统一的用户界面,运营团队可以在其中访问来自多个监控域的所有警报,以了解其系统的“正常”行为和“性能瓶颈”行为。当行为模式与现有机器学习模式相匹配时,监控系统会触发警报,表明存在潜在问题。预测监控使用市场上较新技术的动态阈值,而没有关于它们应该如何执行的第一手经验。这些工具然后了解行为指标随时间变化并在注意到标准偏差时发出警报,这可能导致最终用户注意到的中断或性能下降。可以根据这些警报采取措施以防止业务影响事件。第三阶段:规范监控。这是可观察性框架的最后阶段,监控系统可以在此阶段学习从环境中的事件和补救/自动化包中了解以下内容。哪些警报最常出现以及针对这些警报从自动化包中采取了哪些补救措施?触发的某些资源是否属于同一个数据中心,或者跨多个数据中心出现的相同问题,这可能导致理解错误的配置基线。如果警报是季节性的,则可以在稍后阶段将其忽略,而无需执行不必要的自动化。对作为扩展或扩展的一部分引入的新资源执行了哪些补救措施。IT运营团队需要适当的算法来关联和制定这些场景。这可以是ITOM和ITSM系统的组合,反馈到IT运营分析引擎以构建规范模型。展望未来监控不是可观察性,而是它的关键部分,从反应性监控开始,告诉您何时违反预定义的性能阈值。随着您将更多基础设施和应用程序服务联机,监控需要转向主动和预测模型,以分析更大的监控数据集并检测可能表明潜在问题的异常,然后再影响服务水平和用户体验。然后,可观察性框架需要分析一系列数据点,以在检测到异常的最初几分钟内确定性能问题或中断场景的最可能原因,然后在进入作战室/情况分析之前开始努力解决问题称呼。性能问题。最终结果是更好的用户体验、始终在线的系统和改进的业务运营。
