系统运维场景日趋复杂。随着云和容器相关虚拟化技术的蓬勃发展,在提供高可用部署方式的同时,信息系统运行的集中化风险也将相应扩大。随之而来的问题是,在应急排查、集中生产、系统切换、重要业务保障等场景下,多个技术领域、多个地点、多个团队的相关方进行联动处理,信息传递变成了网状分配。交互式交互,如何采集和展示多链路信息,如何满足每个工作角色的信息需求,如何在海量数据面前保证关键信息的快速准确交互成为IT运维的重点银行业的信息协作。1.当前运维场景的痛点1.信息收集过滤效率低在涉及多方的运维场景中,信息的清洗、解读、分析、汇总会消耗大量资源,一些看似不重要但很关键的信息,在紧急情况下很容易被忽略。并且在重要指令下达后,相应的高管可能会因为各种原因不能迅速做出反应。2、协调与反馈的矛盾对于参与解决的人员来说,在专注于解决问题的同时,还要应对调度员和管理层的多种信息反馈请求。他们经常面临同一个问题需要多次解释和报告的情况,或者需要其他领域的技术人员提供IP地址、序列号、进程号等信息,无法快速响应,扰乱处理的节奏和思路,放慢处理的速度。3、协调秩序难以保证。紧急情况下,人员召集效率低下,热点人员电话始终占线,难以将管理层或其他领域人员的指示或需求有效传达给相应人员。在处置过程中,各个岗位之间的配合、关键决策点的调度,都以人为本。由于个别人员紧张程度不够或回收重点不明确,整体处置进度放缓在所难免。4、人员能力差异对于运维操作中已经形成的工具方案和操作规程,不同人员的执行效果是不同的。在紧急情况下,故障的恢复速度可能会减慢,甚至会出现误操作,从而扩大故障的影响。2、建设目标随着G银行近年建设的视频、语音、生物识别、影响分析、历史经验辅助、运营日志中心等类型平台的建立,结合多年在运维标准化、自动化方面的深耕细作而智能化的丰富经验,为解决上述痛点提供了可行的技术方案和较为完备的理论体系。信息协同管理系统建设旨在提高应急故障处理、集中生产、系统切换、重要业务保障等多种运维场景下多人、多地点信息交互的效率,提高准确性和处理人员操作的准确性。时效性,为决策者提供直观快捷的信息获取渠道和便捷有效的指令发布渠道。包括以下几个方面:1.重要信息定义能力将各岗位人员识别重要信息的体验数字化,定义各场景重要信息的特征,并在协作发生时直观快速地展示给所需角色,让参与者将更多的精力投入到协作主题中。2、跨平台的数据整合能力,作为重要信息识别体验的数字化载体。协同系统打通各种运维场景涉及的平台系统的数据接口,实现多平台各种重要数据的自动整合,让离散数据按时间分离。过程总结呈现给参与者,有效地展示了关键信息之间的时序和相关性。3.协同处置的标准化能力是基于运维人员在事件、变更、灾备等领域积累的处置经验。在决策信息收集和工具计划执行方面,是不同场景、不同领域的人员在特定时间点需要完成的标准。动作可用于提示或提供参考,从而提高协同处理过程的质量和效率。通过人脸、声纹等生物识别技术,语音转文字等手段,结合场景特点自定义界面操作,替代原有文字输入、身份验证等繁琐操作。4.全程数字化记录与展示能力在跨平台数据整合的基础上,对整个协作周期进行全程记录与展示,不断提升数字化覆盖率,为处置决策和事后处理提供数据支持优化。5、运维协同场景全覆盖全面覆盖故障处理、切换、变更、演练等多种运维场景,通过不断完善移动端功能,降低异地人员远程工作的距离感合作。6、抗干扰和健壮性保证保证系统本身从基础设施到应用功能的独立性,支持无关系统或平台的独立运行,最大化协作相关功能的可用性。充分考虑网络信号不佳情况下的协作场景,提供备份手段。三、关键功能实现针对上述建设目标,提供以下功能支持:图1业务流程图2技术架构1.数据集成(1)本系统是配置和日志平台的数据消费终端之一运维部门,具有类似ETL的功能,用于处理信息导入和维护各种外部关联数据系统,包括在线交易接口、批处理文件等,涵盖人员、系统、工作关系、业务交易、监控、云桌面、堡垒机、远程安全输入、运维自动化等数据,根据协同场景需求,实现同维度多维数据信息,提高消息传递效率和关键信息抓取准确性。(2)通过低代码形式配置外部数据。建立统一的支持多种数据类型的导入模块,根据配置表对排序后的数据内容进行展示和使用。用户可以通过前台完成特定场景下所需数据的特征和关系的配置,不断提升外部数据的使用价值。减少数据导入、消费等需求引起的变更次数。2.处置协助(1)对接技术操作日志平台,通过数据接口完成服务器相关日志的初步数据筛选和传输,系统将对关键交易成功率、响应时间、网络状态、服务器资源等根据处置场景的配置指标进行展示。(2)获取运维数据中处置对象的近期变化、切换、问题等,查看相关信息,并与以往类似事件的处置参考进行对比,以提供供参与处置人员参考资料。3、协同任务模板(1)根据不同岗位和时效要求,将标准影响判断、故障定位、基本处置、进度报告等应急操作按时间顺序组合成任务模板。不同因素对模板的匹配度进行加权排序,选择模板后自动将任务分配给每个岗位的人员。(2)任务与模板解耦。支持在协作过程中覆盖或撤销模板。更换模板时,已完成的操作会及时自动更换为新模板,避免重复操作。4、会议中心(1)实现处置人员的快速召集,支持根据系统、报警信息、人员分组确定人员范围,发起协同会议。可选择电子语音、短信、手机APP消息等多种通知方式,一键完成入会通知,移动端点击会议通知消息即可完成一键会议。(2)人员分组:以故障处理场景为例,考虑到每次启动处置会都需要招募一些固定人员,采用Flyweight设计模式,将人员按照班次、职位设计成多个用户,和排名。群组,支持会议发起或进行中的群组邀请,简化通知流程。(三)参与处置的范围、在线状态、参与处置方式(现场、远程)等信息按岗位分组展示。可以重复呼叫非会员。(4)通过虚拟仿真终端实现监控视图、终端画面等参考信息的远程传递和共享。5、协作中心(1)除了视频会议,同时创建基于websocket+socketjs的信息协作群,实现参会人员信息共享,下发任务模板。输入法支持语音输入,提高输入效率。(2)协作组中的信息可以作为任务进行分发,也可以转化为上报信息。6、虚拟仿真终端部署在客户端的服务程序中,接收服务器发送的指令信息,根据指令信息进行相应的仿真操作。分为有人值守机器人和无人值守机器人。(1)载人机器人部署在现场处置人员使用的ECC终端上。可以在用户无感知的情况下监控用户操作,通过ffmpeg开源库以H264编码方式录制活动过程中的屏幕画面,支持视频抓拍、视频水印等功能,将录屏文件实时上传到服务器,并通过视频会议软件提供的SDK自动打开视频客户端,加入指定会议,共享处理人员终端桌面。(2)无人值守机器人部署在不需要用户操作的设备上。采用模拟用户操作方式,通过windows提供的UIAutomatio自动控制界面,可以操作桌面窗口,模拟鼠标键盘,支持远程打开多个web界面,分屏处理,在视频会议中共享。利用windows提供的第三方登录接口开发的COM组件,可以监控系统启动、账户解锁和账户锁定,实现对应急终端的多地远程控制。7、信息公告板以时间轴的形式记录和展示任务的完成情况、现场和远程处置人员终端输入的操作指令和屏幕录像,为决策提供必要的参考信息——实时制作图层,为事后回顾提供数据支持。公告栏内容支持跨协作会议发送,方便多会议协作时的信息共享。图3信息公告栏8.通讯能力保障自动判断参会人员网络状态,支持自动或主动切换视频或电话参与协同处理。4、发展与展望目前,信息协同管理系统旨在提供一个安全、标准化、可视化、数字化的多方协同平台,提升各运营环节的通知、信息共享、影响分析、决策支持等效率。和维护场景。协同作业层面,通过对整个协同过程的完整数字化记录,为后续流程优化和自动化、智能化工具建设提供数据基础。未来,一方面,我们将持续提升信息协同管理系统平台能力,将科技创新转化为标准化流程,提供开放服务,支撑全行运维场景。另一方面,加强顶层设计,依托人工智能技术,以数字信息交换为抓手,与周边平台共建能力共生,提升纵横融合深度,实现能力互补扩展,推动多元化智能运维场景的衍生创新。持续推进移动化、开放化、生态化服务能力建设。
