关于Nagios适用性的争论

时间：2023-03-22 12:22:28 科技观察

最近在伦敦举行的DevOps会议上，AndySykes引发了关于是否应该有更好的解决方案取代Nagios（一种提供监控和警报服务的知名应用程序）的争论。Andy承认Nagios有一个简单的插件模型，并且在概念上简单可靠。但其缺点更为显着。他认为Nagios很难扩展，因为它不支持任何类型的集群。而且配置起来比较麻烦，会涉及到服务器和客户端之间的大量复制。此外，另一个痛点是缺乏一套API来简化系统集成和自定义仪表板创建的过程。在这个弹性和云时代，需要通知主机新客户也将被视为一个主要缺点。针对Nagios的不足，Andy给出了一些建议。他推荐Sensu用于监控，Graphite用于图形需求，Flapjack用于警报。不过，在检测异常和用户界面方面，安迪认为目前还没有合适的产品。对此，LaurieDenness持不同意见，并解释了为什么Etsy会继续使用Nagios。劳里驳斥了安迪提出的每一个观点。对于Etsy，“我们在主数据中心进行了10,000次检查。通常每两到三分钟，就有一组30秒的检查，”Laurie说。为此，必须进行一些优化调整。该团队启用了Nagios的use_large_installation_tweaks标志以减少延迟，并禁用了惠普和戴尔服务器上的缩放设置——因为Nagios似乎与这些设备使用的电源管理算法不太兼容。当Etsy开始使用两个数据中心时，他们选择在每个数据中心中放置一个Nagios实例，并使用Nagdash来汇总状态和报告。在配置方面，Laurie宣称：如果您花时间挑选Nagios配置文件，那么也许您无论如何都会喜欢它并且正在对旧配置进行大量重写；或者也许你走错了路。很容易实现自动化。Etsy还使用nagios-api——Nagios的第三方项目，它提供类似REST的JSON接口来实现自动化。对于目前Nagios在Andy眼中的不足之处，Laurie给出了更宽泛的解释。他认为Unix哲学适用于与Nagios一起工作：“基于许多小组件和应用程序，所有这些组件和应用程序都负责特定的小规模问题，用户使用管道将它们连接在一起。”事实上，Nagios拥有强大的Ecosystem，在Laurie看来，这是一个强大的优势。TheoSchlossnagle在谈到Laurie的洞察时延续了“Nagiosisnotenough”的思路：对于运维，我们需要的是读取系统遥测数据并提供对其行为的深刻洞察。这是一项广泛的任务，必须对收集到的数据进行分析。但是，Nagios和其他各种类似设计的产品不支持这种方法。查看英文原文：讨论NagiosFitnessforPurpose

上一篇：最适合和最不适合新手使用的几款Linux发行版_1

下一篇：物联网在医疗保健领域的十大典范

关于Nagios适用性的争论相关文章