介绍:SRE技术支撑平台-钉钉中心TAC:混合云一站式告警运维平台1.目标定位1.1后台告警管控平台种类繁多。告警发生后未能及时发现和处理,最终导致故障。专有云监控能力依赖版本升级,操作复杂,迭代缓慢,异常问题和故障感知不如客户。1.2目标制定告警数据接入规范,实现告警多告警统一集中展示构建、外发通知独立部署、快速迭代、告警级别区分、感知提升)是一站式告警运维平台TAMforHybridCloud,涵盖混合云中用户涉及的云产品、大数据、云实例、站点应用等告警,提供告警生命周期管理、告警外包等解决方案。帮助混合云平台快速发现和定位异常问题,协助产品团队推动产品改进。2.2特点2.2.1报警聚合默认集成:云平台、大数据、云实例、站点应用支持扩展:自定义监控2.2.2报警通道钉钉&本地化钉钉短信服务企业邮箱警用微信2.3业务服务流程图2:TAC业务服务流程图3.主要功能及界面展示3.1告警中心实时显示云平台当前所有告警数据,并列出近7天产品告警TOP排名。告警数据一目了然,提高感知。图3:告警启动中心界面展示3.2SRE运维仪表板索引化,方便查看产品健康状态,判断是否有故障;指标项包括:健康率、成功率、转移实例、准时率、正常率、运行率、使用率、写入成功率、读取成功率。图4:SRE运维dashboard界面展示3.3告警工作台用户可以在平台告警页面申领新的未决告警,离线处理完成后在我的告警页面关闭告警。当您认领自己不擅长处理的产品报警时,可以通过在线转发的方式交给擅长处理的同学。如果出现长时间无法处理的告警,在确认没有影响的情况下可以选择忽略该告警,避免连续外发消息造成的消息轰炸。自动恢复的告警无需手动领取和关闭,可在历史告警中查看。图5:报警工作台界面展示3.4赛事服务中心打破以往签名、短信、邮件的运维管理方式,为客户把很多线下的流程搬到线上,预置相应的管理系统,在线提交,在线反馈模式统一管理、闭环跟踪、数据归档,为日常流程管理提供更多解决方案,逐步替代线下管理。图6:事件服务中心界面展示3.5报警控制策略支持设置自动调度策略,当指定产品发生报警时,自动认领报警;当天第一次闹钟立即通知,非第一次闹钟静默1440分钟后通知;支持控制告警发送时的状态,“发生时”,“认领时”,“关闭时”;支持预约让某类闹钟在指定时间范围内进入静默期,该闹钟暂时失效;支持推送告警自定义配置告警类型、产品、级别、部门、项目等。图7:告警控制策略界面展示3.6告警推送策略提供给用户系统,系统会识别用户的手机号和邮箱发送警报;提供钉钉、短信、邮件的外发webhook和api接口配置;自定义配置推送告警可以选择一种或多种告警策略图8:告警推送策略界面展示3.7监控网关支持在监控任务页面配置用户关注的网站、机器或界面,TAC会根据遵守规则;提供黑屏监控工具。用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报给TAC,用于显示和发送第三方告警。图9:监控网关界面展示3.8钉钉通知图10:钉钉通知效果展示4.结论目前,大部分混合云项目都通过TAC实现了告警通知功能。有效提高告警处理效率,减少因告警处理不及时造成的故障,大幅提升项目运维质量,降低项目人力投入成本。作者:阿里云智能GTS-SRE团队黄家良高级技术支持工程师
