本文转载自微信公众号“于大胆的推特”,作者于大胆。转载本文请在twitter上大胆联系Yu公众号。什么是指标传统的监控系统将指标视为附属物,但实际上指标是用来反映环境的状态、可用性和性能的。指标是软件或硬件组件的属性度量。为了使指标有价值,我们通常通过记录一段时间内的数据点来跟踪其状态。数据点包含值、时间戳和一些其他属性。数据点的集合是一个时间序列。数据以固定时间(粒度)间隔收集。粒度越大,越容易遗漏细节。时间序列是按时间顺序排列的这些数据点的集合。1:Indicatortype测量类型,这个类型是一个增加或减少的数字,比如CPUload。计数型,这种类型的数字不会随时间减少,比如uptime运行时间。直方图、数据分组,例如桶中值的大小。2:指标聚合指标有时需要经过一些数学变换。通常,指标的聚合是有意义的,可以更好地识别趋势。例如,单个网站流量的下降趋势不如所有网站流量的下降。(1)均线均线不能反映真实情况,如波峰和波谷会被均线掩盖。(2)中间数中间数是所有值的正中心,50%的值在它前面,另外50%在它后面。它具有与平均值相同的缺点,不能反映真实情况。(3)标准差用于衡量数据集的变化或分布。标准差为0表示大部分数据接近均值,标准差越大表示数据越分散。正态分布也称为经验法则,但如果数据不是正态分布,最终的标准差可能会误导您。(4)百分比最有意义。比如99%的API响应时间小于100毫秒,这说明整体性能还是不错的,我们要解决的是剩下的1%。监控方法一:USE:关注主机监控汇总为每项资源(如CPU)、查看利用率(资源忙于工作的平均时间,通常为百分比)、饱和度(资源排队等待工作的指标,并且不能再处理额外的Work,一般用队列长度表示),error(资源错误时间的计数)。2:Google的四大黄金指标专注于应用程序级别的监控。延迟,服务请求所花费的时间,如QPS错误,请求失败率饱和,应用受限资源(如IO),各指标可用于监控,延迟大告警,QPS超过阈值告警,错误率istoohighHighalarm,对有限资源的告警越高。警报和通知警报会在达到阈值时触发,但触发并不意味着通知,因此这是两个过程。报警准确,否则无意义。同时,告警信息也要有上下文(现在该做什么),考虑:那些问题需要通知谁多久通知一次,什么时候停止通知以及什么时候升级给别人可视化数据可视化是一个很强大的分析和解释技术,以及一个很好的学习工具。清楚地显示数据引发思考避免数据失真保持数据集一致允许在不影响理解的情况下更改粒度
