简介ITIL将IT服务管理分为十个核心流程管理和一个管理功能。目前,国内银行的运维系统大多基于ITIL规范建立。在ITIL十大核心流程之一的事件管理中,事件是指任何不符合标准操作,已经或可能导致服务中断和服务质量下降的操作。在银行的IT系统中,“突发事件”表现形式多种多样,但处理突发事件的关键只有一个“天下武功,唯快不破”。快速解决。本文想简单谈谈G行应用管理中的事件发现过程,即应用监控的构建,以及从应用监控到可视化运营的发展方向。传统监控系统概述传统应用监控是指从应用层对应用事务处理性能、流量、带宽占用、用户行为、通道来源、服务占用等进行实时监控、分析和告警。下表简要列出了一般应用基础监视器。应用基础监控类别监控方式指标类别监控方式指标资源层进程进程数应用层应用功能健康检查进程GC次数/分钟业务层在线交易总交易成功率文件COREDUMP总交易响应时间异常文件总交易量文件丢失key文件整体事务响应率文件密钥交换状态在线事务单笔事务成功率文件日志关键字单笔事务响应时间网口监控单笔事务量网络网络长连接单笔事务响应率组件层线程池线程池状态WEB页面页面监控数据库连接池JEDIS连接池批任务批任务状态应用API加密API连接集群环境F5池可用率应用队列队列深度部署层集群环境集群状态应用监控主要保证正常的应用基础环境和运行性能,并提供活跃的用户体验,应用监控工具为IT管理提供必要的信息以帮助处理事件:隔离、服务降级或重启。1、传统监控体系下的基础应用监控GoogleSRE定义了四个需要监控的关键指标。延迟、流量、错误和饱和度。延迟延迟是衡量服务处理传入请求和发送响应所需时间的指标。测量服务延迟有助于及早识别服务缓慢。流量(Traffic)流量可以更好的理解服务需求。流量通常称为服务QPS(每秒查询数),是衡量服务请求量的指标。此信号可帮助您决定何时需要扩大服务规模以应对不断增长的客户需求,或缩小规模以提高成本效益。错误错误是客户端请求失败的度量。这些失败可以根据应用程序的响应返回码、日志中的关键字轻松识别。在某些情况下,由于不正确的结果数据或违反合同,响应被认为是错误的。除了响应代码,可能还需要其他代码逻辑输出的错误日志来捕获错误。饱和度饱和度是衡量服务器资源利用率的指标。该信号告诉您服务资源的状态以及它们有多“满”。这些资源包括内存、cpu、网络I/O等,服务性能也会慢慢下降,直到资源利用率达到100%。因此,有一个使用目标很重要。延迟的增加是饱和度的良好指标。正如GoogleSRE所讨论的那样,通过Zabbix、Prometheus、grafana等各种技术工具来实现衡量服务的四大指标,可以实现对一个业务系统最基本的监控。2、传统监控系统的痛点是以交易为中心,而非以客户为中心。传统的应用程序监控主要集中在技术组件的可用性和事务性能上。Bank4.0时代,场景金融被广泛提及。它将视角从传统的产品和交易中心转移到客户中心,将服务的物理空间从银行中心转移到场景中心。通过连接客户生活,提供端到端的服务,满足生产场景产生的金融需求,带来金融创新和业务转型。应用管理中的监控体系也必须不断进化迭代以适应业务的快速发展,其出发点也必须发生变化:从以交易为中心到以客户为中心,未来的实践方向可能是监控场景。业务和技术监控视角不统一另一个需要讨论的问题是传统监控推送监控消息后,如何判断业务影响范围?由于业务人员和IT管理人员的视角存在明显偏差,对业务影响的准确判断也存在明显偏差。这里我们可以用埃舍尔的视错觉来描述这种现象。结果是鸭子还是兔子??当银行的IT系统监控平台推送在线服务拥塞的消息时,从应用管理的角度,事件定义为服务拥塞,部分在线交易无法正常处理,但从业务管理的角度,看到了什么是在支付系统拖欠账户中发生信用和报告。业务视角和IT视角的不同,会对事件的重要性和紧迫性有完全不同的判断,这将对事件处理的决策产生重大影响。当信息不足以准确分析环境中的复杂情况时,我们会根据自己固有的认知、逻辑和习惯进行猜测和补充。如何统一技术和业务视角,准确定位业务影响范围,是另一个必须考虑的难题。G银行从应用监控到业务可视化运营的探索建设“可视化运营”工程。项目遵循数字化转型战略,做好安全运行保障工作,提升运维治理能力,为提升信息系统整体可用性、科技赋能业务发展、推进数字银行转型提供有力支撑。可视化运营的最大特点是,由业务人员和IT管理人员共同提出监控需求,解决“鸭子和兔子”问题;实现关键应用系统关键业务场景监控覆盖和全流程管理。业务监控功能将从交易量、客户、商户等维度利用生产数据,通过全国热点图、直方图、动态展示图表等形式呈现业务经营现状,以实现以下目标:1.通过监控掌握业务发展趋势,为业务发展方向提供预测。2.通过监测行为轨迹掌握客户行为数据,促进交易量的提升。3、通过对业务的实时监控,及时发现业务功能是否正常处理。整体运营能力。4、风险违规防范监控功能,挖掘重要业务场景中可能存在的业务风险点;各监管机构合规率100%。对于支付结算业务,G银行定义了本币支付结算5大业务场景(分别为:大额支付、小额支付、超级网银、CIPS、ACS)和外币结算场景。区别于传统的监控流程只需要科技人员,可视化业务操作需要业务人员、开发人员和运维人员指定场景的设置范围、指标和阈值。项目实施的关键是总体要求的制定。整个过程很多工作需要和业务沟通确认。在本币支付结算场景中,G银行可视化运营管理平台整体梳理了4个本币场景的系统监控、系统管理、业务管理、统计分析、工作管理5大类123个重点.需求,具体实现如下。全面覆盖各个场景的整体状态、交易量、交易金额、系统响应率等。传统监控更多的是对一个点的监控,业务场景更注重业务流程的运营管理。重点清算支付业务场景分级下钻,按业务类型实时分析统计,异常情况在通讯报表告警信息中显示,处理成功后按最终状态自动核销结果,并自动判断平仓异常和流量性异常(仓位预警,平仓排队)。全面覆盖内部考核指标和监管考核指标、G行关注信息(大额交易报告异常、小额交易报告异常、超网交易报告异常、CIPS交易报告异常、ACS异常数据);人民银行考核数据响应率及发起响应信息数量(查询查询、退货申请、人民银行状态查询、客户信息查询、支付申请)。业务异常可自动推送通知给总分行管理人员,实现技术-业务、总分行实时联动。外币清算一体化经营。结语在未来的业务和产品服务模式创新方面,银行需要基于第一性原理进行突破性创新。就银行自身而言,也应运用第一性原理思维,不断突破固有思维模式,走出一条适应自身发展的创新之路。未来,银行的金融服务将与我们的生活和消费场景深度融合。作为应用管理业务监控的探索,也将深入场景,实现以交易为中心向以客户为中心的转变:第一时间发现问题,准确做出业务判断,及时解决问题,有效提升客户体验,从技术层面的应用监控走向业务运营可视化。
