在陪同许多公司体验云和云的业务之后,我们可以看到每个企业的运营和维护监控系统的构建非常困难。变得越来越复杂。这不仅反映在操作和维护团队的建筑和工作流程中,而且在构建工具选择和平台上。尽管不同阶段的公司都需要面对各种实际问题一些最佳实践要遵循。今天,我们将讨论工具选择以及平台构建思想和实践的关键点和实践点。
应该明确解释的是,监视平台不仅仅是下载开源监视工具。它需要根据监视的业务特征来整合和发展二级发展,以实现实际的业务状况。经过很多实践,我们发现企业的一般监测系统的需求和开发方向:
Yun Yuansheng带来了交叉技术堆栈和高动态的技术架构。因此,面对复杂和变化的监视环境,可以自动认识到收集器,并且独立的指标集合已成为所有事物的开始。无法收集,如何监视?
云,容器和微服务的出现增加了受监控物体的数量,当业务迅速发展并面临数亿或什至10亿个时间水平时,我们应该如何管理?
随着数据量的爆炸性增长,数据显示方法(例如传统的线路图,直方图和分散的点)很难使操作和维护人员在数据背后找到异常或隐藏的瓶颈。监视对象,找到更合适的数据板和显示表格已成为每个操作和维护人员的强制性课程。
随着技术的快速发展,监测系统在整体操作和维护系统的中心枢纽中的作用变得越来越明显,并且操作和维护监视已从传统流程转换为数据驱动程序。如何更方便与许多其他运输子系统建立联系也是操作和维护团队在监视系统开始时需要考虑的问题。
结合上述特征,我们讨论了公司监测系统到下阶段的演变。
促销期:50至100个单位之间的服务器数量
在此阶段,由于服务器的数量很少并且业务量表很小,因此监视操作和维护团队的需求相对简单。可以实现基本的通知问题,快速定位和解决问题。这次,平台,施工主要是为了允许研发,操作和维护学生逐渐熟悉产品使用,并通过经验和反馈来确认它是否符合企业IT运营以及维护和业务特征。几个关键功能包括:
(1)简单部署,成熟的文档和服务系统,易于使用;
(2)稳定操作,SLA保证;
(3)警报系统通知的形式不太丰富,但相对及时且可用;
(4)低成本或免费。
基于上述需求,许多初创企业可能会选择开源工具,例如Nagios,仙人掌,Zabbix,Ganglia.Popular开源监控产品文档相对完整,可以快速使用,并且可以使用大量企业来参考。但是,这里的问题在于,开源产品和使用方案的性能无法满足业务方案的发展和业务量的增长,然后发生了各种问题。在同一时间,GAO的可用性已成为致命的问题。毕竟,开源社区不会总是有志愿者来帮助我们检查错误。
爆炸期:200至1000个单位之间的服务器数
在此阶段,由于服务器数量大量,技术结构的变化以及更丰富的组件,监视需求已经开始变得复杂。分批分批。在确保稳定性,快速上升和统一技术堆栈的前提下。监视系统主要用于警告通知,发现问题并再次避免相同的问题。有几个关键功能:
(1)监视内容的摘要和分类
随着监视对象和信息随着技术体系结构和业务规模的扩展而增加,需要对软件,硬件和业务等数据进行全面覆盖监控。以及用于不同的监视目的,需要对监视进行分类和总结,例如作为系统基本监视数据,网络监视数据和业务监视数据。
(2)各种警报方法,没有及时丢失的报告
根据监视对象的重要性和紧急级别,并通过电子邮件,微信,短信,电话等通过不同级别的警报通知,每个监视都与不同的负责人相对应,以确保每个警报都及时跟踪。
(3)警报策略优化和信息融合
由于需要监视的服务数量增加,警报信息的数量已经飙升,并且每天可能会收到数千封警报电子邮件。多大警报信息失去了准确通知的重要性。如何配置和优化警报策略,并尽可能最大程度地减少不必要的警报邮件,成为策略设置的核心。
成熟时期:服务器的1,000多个单位
随着业务的不断增长,对服务器的需求正在增加。当服务器超过1,000台时,这意味着需要访问核心系统并建立新的稳定保证系统,包括监视市场,警报通知和紧急责任。为了确保整个业务和技术市场的稳定性。
(1)监视延迟和警报滞后
当业务规模较大且较大时,由于组件或服务的耦合关系,整个业务系统由于小缺点而瘫痪。因此,及时发现问题已成为所有事物的主要先决条件,但是如果您仍然开放源产品,目前可能有很多麻烦。举例说,当量表达到一定量时,有时无法及时显示监视数据,并且警报延迟。确实可以通过各种优化调整。方法。但是,由于业务问题造成的损失无法恢复。
(2)监视系统本身的SLA
当收集操作和维护数据迅速增长时,监测系统本身的高可用性也已成为一个重要的问题。所有人都在失去监控系统后意味着整个技术和业务的运营失去了控制。
面对上面不同阶段的疼痛点,武器已成为最好的解决方案。在同一时间,阿里巴巴云(Alibaba Cloud)启动了武器3.0包容性计划,通过更灵活的计费计划来帮助不同类型的用户在不同类型的用户中,以获得更高的成本 -有效的观察经验以更合理的成本。在2021年10月,即将到来的申请监控基本版本(计费)模式支持0元:3天的免费存储空间,呼叫链基本采样1天,该功能与原始功能一致基本版本,您可以按照原始基本版本按下,您可以按照原始基本版本进行按。计费描述。
根据用户在上述阶段的要求,ARMS 3.0应用程序监控启动了支持灵活的计费策略
(1)试验期:ARMS为新用户提供15天的免费使用,并全面评估武器产品和业务的拟合度。
(2)促销期:武器为基本版本提供免费配额,3天的免费存储用于申请监控指标,并致电链条基本采样1天。。
(3)爆炸期:武器基本版本根据需要支撑指定应用的计费链采样率,或扩展存储周期。
(4)成熟时期:根据业务流量的类型自由选择收费或计算流量。
随着微服务和kubernetes的普及,微服务越来越薄,单个吊舱流量越来越小。根据节点计费模式,似乎还不够灵活。随着业务流量不变,随着节点的快速增长,成本显然是不合理的。
为了解决小型流量和弹性交通使用者的可观察成本,ARMS 3.0启动了应用程序监控(基于帐单)模式的基本版本:致电链条基本采样1天,付费采样链接为0.2 yuan/((百万百万/百万轨道*天),收费,单个跟踪最多包含10个跨度调用,这是按比例转换的。指标数据在3天内免费,并且可以根据需要扩展存储周期,如下表所示。
以ARMS的基本版本为例,用户创建了约300个POD,原始电话总数约为54亿/天,通话链采样率为10%,实际存储量约为5400万个跟踪/DAY.STOORAGE 1天根据链接的原始基本版本以及指示器存储3天,在流量后升级到升级成本的升级可以节省90%以上。
某些TOC类型的业务流量非常大,并且问题的时间跨度很高,需要长期存储。这次,您可以根据节点充电模式选择武器专家版本,该链接已存储。在30天内,该指标存储了90天,价格全部包括,费用是限制的,并且更适合大型流核申请访问。专家版本还可以享受集装箱服务的半价折扣ACK或EDAS用户。预付费费的最低购买套餐可以是1.308元/(探针*天)。有关详细信息,请参阅武器的价格描述。
问:新老用户如何升级到应用程序监视(计费)模型的新基本版本?
答:2021年10月之后,在新用户的试用期之后,选择打开基本版本并默认输入绑定计费模式;库存的基本版本可以升级到应用程序监视 - >应用程序列表页面上方的新计费模式。
问:默认情况下,新的基本版本(根据数量绑定)是免费的吗?它是免费的?
答:打开一个新的基本版本(卷计费)后,默认值是完全免费的。如果未自由调整存储周期或呼叫链采样率,则可以自由使用。它非常适合小型流量或测试应用程序访问。
问:基本版本中包含哪些功能?开源版和专家版本有什么区别?
答:基本版本支持基本APM功能,例如呼叫链,服务监视,JVM/主机监视和警报,这基本与开源功能相同。专家版将在诊断内存/线程/线程/线程/线程/线程/线程/线程/线程/线程/线程/异常。根据节点计数,该链用于存储链条30天,并将指标存储90天,更适合大流量或核心生产应用。
问:除了申请监控外,手臂端 - 端端监视,云拨号测试和普罗米修斯监控是否对计费?
答:武器前端监视,云拨号测试和普罗米修斯监控所有支持计费帐单,您可以通过预付款获得折扣。有关详细信息,请参阅武器产品的价格描述。
相关链接:
1)应用程序监控列表基本版本功能:
https://help.aliyun.com/document_detail/65682.html
2)产品计费描述:
https://www.aliyun.com/ntms/price/detail/arms_detail
3)武器产品价格描述:
https://www.aliyun.com/ntms/price/detail/arms_detail
作者:Yahai