保持关键业务应用程序正常运行对于企业来说是绝对必要的。研究公司Gartner、IDC和其他公司估计,IT停机时间平均每分钟造成4,200英镑的损失。一个简单的基础设施故障可能会造成大约75,000英镑的损失。面向公众的关键应用程序失败的成本更高,每小时378,000英镑到755,000英镑不等。当其故障影响到大规模的全球物流运营并给客户带来广泛的不便时,损失就更加严重了。例如,去年5月,英国航空公司在其操作系统出现故障时遭受了快速损失。英国航空公司估计损失了1.0199亿美元(7708万英镑)的硬成本,包括滞留乘客的机票退款和对其声誉造成的难以估量的损害。根据当时的股票估值,英国航空公司的母公司IAG随后损失了2.24亿美元(1.7亿英镑)。预防此类灾难,或在灾难发生时迅速有效地进行干预,意味着为开发人员和运营人员(DevOps)提供IT基础设施、网络和应用程序的可见性。现代IT监控解决方案以多种方式提供这种可见性,包括:问题:摄取和发现。手动配置对数百或数千台主机的监控是一个耗时且容易出错的过程。运营商有时无法全面了解其职权范围内的所有主机、应用程序和业务服务。解决方案:IT监控系统越来越能够自动化或推断信息、配置管理数据库(CMDB)、部署工具、云计算API和其他信息源。这有助于操作员识别和标记实体、可视化依赖关系,并快速准确地配置跨混合(即本地和基于云的)数据中心的监控。可以使用Windows管理器(WMI)、SNMP网络发现和其他技术来完成发现。问题:摘要状态显示。数据中心运营商需要一个“单一控制窗口”,该窗口可以从受监控的系统中收集大量状态信息,从而使他们能够快速识别问题并进行调查以确定根本原因。解决方案:采用成熟的IT监控平台,提供可折叠的大纲样式摘要显示或计划报告,允许操作员隐藏或显示有关受监控主机和系统的有意义的信息子集。颜色编码的弹出窗口提请注意问题。可点击的选项卡提供对个别服务检查、图表、原始事件日志和故障排除工具的详细信息的快速访问。问题:仪表板。这么多的监控数据,太密集了,用起来会比较费劲。操作员需要能够快速可视化关键指标和状态信息。解决方案:有价值的IT监控系统允许企业使用图形小部件创建可定制的仪表板,隔离特定的主机、指标和KPI。可以将对准备好的仪表板的只读访问权限分发给关键利益相关者,以了解应用程序状态、服务水平协议(SLA)合规性等。问题:业务服务监控。IT团队和DevOps需要能够可视化交付关键业务服务所涉及的所有基础架构元素和系统的状态。解决方案:业务服务监控(BSM)是一种增强的仪表板功能,允许操作员创建复杂应用程序“堆栈”的交互式视图(例如,负载平衡器、Web/应用程序服务器、数据库集群、网络设备和其他支持典型、扩展的元素)出、高可用性、分层应用程序)。它非常适合开发人员、产品经理和其他对此负责的人了解他们拥有的应用程序的状态,并使他们能够在系统状态开始下降时提供有效的帮助。问:举报。实时状态可视化并不能说明全部情况。主动管理和规划还意味着能够查看系统范围的状态、资源消耗趋势和其他信息。解决方案:综合报告使运营商能够跟踪合规性。它提供对服务级别协议和目标的洞察、规划维护和升级、跟踪成本、横向扩展预算以及许多其他用途。问题:警告。严重的问题可能需要24/7的操作员关注。解决方案:几乎所有IT监控解决方案都通过手机、电子邮件和短信提供警报。许多还直接与呼叫管理系统和服务集成。将警报在正确的时间正确地发送给正确的人非常重要。企业监控平台要么具有此功能,要么与经过验证的解决方案集成,以确保合适的人在合适的时间获得洞察力。问题:机动性。将运营商与网络运营中心(NOC)和办公室捆绑在一起会影响士气和生产力。解决方案:领先的IT监控解决方案提供有用的移动应用程序,使操作员能够查看状态、关键业务服务和其他仪表板;并从任何地方响应警报和通知。问题:通知和出站集成:一旦状态信息从监控系统聚合,问题是如何产生、跟踪、分配、协作和解决的?解决方案:***监控平台与流行的企业和SMB企业问题跟踪、帮助台和IT流程管理解决方案提供越来越广泛的集成。在企业监控平台中寻找与Slack、ServiceNow、Puppet、Ansible等工具的集成。询问可扩展性,例如“它的平台能否轻松扩展其功能以与未来的解决方案集成?”***信号监控得当意味着不要想像每一个可能的信号。理想情况下,控制使可见信号的最小子集能够产生最具可操作性的见解:收集的每个指标都有相关的硬成本和软成本。随着IT资产规模和复杂性的增加,与收集、处理、存储、分析、显示、查询和报告指标相关的开销也在增加。这最终会影响应用程序、网络和监控系统的性能。过度的可见性也会给操作员带来严重的认知负担。太多复杂、很少使用或与操作无关的指标会掩盖潜在的信号(警报),从而减慢有效的事件响应。缺乏对可见信号的选择性,以及如何评估和引起人们对它们的注意,会很快导致过度恐慌。这可能会导致疲劳和倦怠,并最终导致在事件确实发生时被忽略。操作员花在调查非关键事件上的时间浪费在更重要和更有影响力的工作上。简而言之:获得对错误的可见性成本更高,并且会阻碍创新。***洞察力工作者需要广泛的知识和经验来识别必要和充分的信号,以安全地监控给定类型的基础设施、应用程序或业务服务。如果没有合适的工具,人手不足且时间紧迫的IT员工通常很难提供这种级别的保证。最佳IT监控解决方案通过将最佳指标集打包到模块或插件中来弥合知识差距,使您能够快速、自信地设置符合最佳实践的监控。例如,使用插件,操作员可以立即执行20到40项服务检查,以监控MySQL数据库的健康状况、性能和资源消耗。开发人员使用不太成熟的应用程序性能监控(APM)系统和开源工具链来构建软件并可视化测试和生产环境中的应用程序状态。应用程序性能监控(APM)解决方案对于对应用程序细节知之甚少的操作员来说不是很有帮助,他们的工作是保持众多复杂应用程序的平稳运行。与IT运营监控不同,应用程序性能监控(APM)系统多种多样并符合各种标准。例如,有许多开源服务器、驱动程序和其他工具旨在从使用HAproxy(一种流行的开源代理服务器/负载平衡器)的Proproheus(一种流行的指标可视化和数据库系统)中提取指标。观察监控和可见性处理“已知的未知数”,即众所周知的性能特征/指标以及应用程序和组件的已知硬故障模式。同时,可观察性更加集中,现在用于讨论包括“未知的未知数”的可见性超集。特别是,这指的是理解和管理动态、自缩放、弹性、分布式应用程序的行为的挑战。基本上,可见性是知道可能发生的一组可预测的问题,而可观察性可以洞察发生的事情,这需要进一步探索。企业监控解决方案正在努力提供插件和模块,使容器编排和相关系统的内部工作更加可见。与此同时,领先的市场参与者正在评估一系列策略,以从分布式和容器化应用程序中提取一些重要信号,使其可观察到。
