揭秘NGSOC如何助力冬奥安全运营中心——规划建设展示冬奥安全运营中心从一开始的规划设计,从使用从NGSOC作为核心安全监控平台,到交付部署以及保障NGSOC安全稳定运行的技术流程,本文将重点介绍冬奥会安全运营中心如何进行规范化运营。“磨刀不误砍柴工”标准化流程才能高效运行冬奥项目所有安全产品的交付、部署和多次升级,团队数量不断增加,如何才能实现高效运行?事实上,早在规划初期,考虑到冬奥会项目相对于常规项目的复杂性和重要性,团队就已经预判了可能出现的问题,制定了完整的安全运营方案,但在方案实施过程中,许多发现了问题,2020年冬奥会安保运营中心的监控人员只有四五人,到2021年将增加到20多人,包括所有测试赛和场馆现场人员,前端-线团队将达到200多人,随着人员的增加,原有流程难以有效克制保证工作流程的运行。仍有团队成员不清楚安全事件的处理流程。沟通过程中很难突出重点。从会场到总部的跟踪上报流程也有不同意见。在问题日益突出、冬奥组委要求不断提高的背景下,解决高效运行的挑战迫在眉睫。于是2021年初,团队成立专项小组,调集集团运营训练部专家、安全服务部顾问、攻防专家、NGSOC事业部人员,共同制定冬奥会SOP(StandardOperatingProcedure),主要包括安全操作规程、安全运维流程、应急响应流程。本标准对监控岗、分析岗、运维岗、处置决策岗等不同岗位进行了详细划分,明确了各岗位的详细工作内容和工作标准。此外,为保证流程高效执行,NGSOC产品团队还进行了一系列测试。第一轮测试从2月初持续到2021年4月底,这也是安全操作SOP首次投入使用。虽然标准已经投入使用,但过程并没有想象中那么顺利。团队成员很难在短时间内快速熟悉并严格执行。同时,工艺本身也存在很多需要改进的问题。但经过不断的测试和演练,以及对冬奥会所有一线人员的培训和考核,2021年8月,安全运行SOP将真正形成。虽然从最初的交付部署到2021年底的试运行,梳理标准化过程既累又繁琐,但有了SOP,在2022年1月23日进入冬奥备战阶段后,整个团队放松了。每个人都能熟练掌握SOP,清楚自己的工作内容、如何上报、如何处理,也能熟练操作NGSOC平台。虽然人数众多,但整个团队协调高效,处理有序,大部分安全事件都可以通过标准化流程解决。回忆起这段话,童磊说:“通过标准化的流程,实现了常态化运作,我们真的很自豪。”并且在整个过程中,大家的责任感和参与感都更强了。标准化的动作和流程可以有效纠偏,大大降低每个岗位出错的概率,安全事件的处理不再完全依靠个人技术,而是依靠人+工具+的高效有序运作过程。“工欲善其事,必先利其器”。安全操作需要工具配合。在冬奥安全运营中心项目中,标准化流程的运行离不开人和工具的紧密配合,而NGSOC是冬奥安全运营中心的核心如何将安全监控平台与安全运营团队紧密结合确保SOP的高效执行?首先是实用、易读、美观的视觉大屏。NGSOC平台的监控涵盖了网络中心、数据中心、云系统以及众多场馆。因此,如何呈现不同组织的安全状态,让安全运营团队能够快速发现安全事件并顺利处理,也是NGSOC业务部门需要解决的问题。奥地利项目组面临的问题,所以在做视觉设计的时候,标注了几个关键词:实用、易读、美观。经过无数次修改优化,可视化呈现逐渐形成网络安全综合监控大屏、各场馆网络安全监控大屏、实时监控大屏。NGSOC-ComprehensiveNetworkSecurityMonitoringBigScreen实时监控大屏为冬奥会安全运营中心的实时监控工作带来最直观及时的呈现。可以实时查看最新的告警数据统计和告警处理情况。当发生紧急报警时,大屏通过报警提示音和屏幕特效,对7*24H作业进行最及时有效的提醒,务实高效。NGSOC-实时监控大屏“可视化大屏从场馆和应用系统的角度对威胁、事件、数据趋势进行直观展示,满足冬奥会安全运营中心的需求。”NGSOC业务冬奥部项目经理表示,为了更好的呈现展示效果,奇安信可视化团队投入大量人力对比赛场馆进行实地勘察,实现了3D在短短两个月内完成所有比赛场馆的建模。效果惊人,实现了实用、易读、美观的综合展示。NGSOC-Venue网络安全监控大屏图二是云上云下全覆盖,监控能力全面提升。在冬奥会安全运营中心项目中,NGSOC平台接入云上云下1000+数据源,涵盖终端、服务器、网络设备、安全设备、应用系统、业务系统等所有核心资产。日志种类超过80种,日均35亿条日志,存量日志上千亿条。为实现对冬奥云上服务的全方位、持续的安全监控,结合云服务的安全架构设计,NGSOC在云的四大板块共收集了18类数据源网络、主机、数据、监控审计、日志等30多种,共设计60+安全监控场景。在日常运营中,云上检测到数千起安全事件。三是齐安新泉产品体系衔接、协调、联动??。2021年8月,奇安信冬奥项目组紧急成立联合项目组。目标是以NGSOC为核心,整合各类产品日志和流量分析能力,解决冬奥会场安全常态化运营和应急响应问题。评估并实现8大产线(NGSOC、交途、天眼、天擎、威胁情报、Zion、SOAR、天狗)的产品联动研发和所有安全产品的日志接入和分析。按照冬奥会项目进度,大家只有19个工作日的时间来完成这项任务,这对项目组来说是一个几乎不可能完成的挑战。时间不多了,每条产品线都在与时间赛跑。联调阶段,由于NGSOC研发人员有限,及时调整应对策略,形成一对多联调模式(一人同时对接多条产线),从开发计划对接联调。为了交出一份满意的答卷,NGSOC事业部冬奥项目组的每一个人日夜奋战,积极推动每条生产线的进度,遇到任何堵车问题第一时间找到解决方案,得到了各方的高度认可产品线,包括冬奥组委。除了产品联动,还有打通安全场景的重任。8个重大应急安全场景和40个正常运行场景完成需求拆解、方案设计、开发、测试和交付。最终,NGSOC在冬奥会上首次实现了与奇安新安产品体系的融合。从各个设备的日志接入、数据的集中呈现、关联分析到安全能力的协同联动,安全运营商只需借助NGSOC,即可实现一站式监控、排查、响应闭环,无需供多个安全产品之间来回切换。当所有的工作接近尾声时,看到各个研发团队交出的答卷,所有人都不由松了一口气。正是这样一支充满冬奥精神的队伍,秉承艰苦奋斗、披荆斩棘的信念,赢得了最后的胜利。按计划完成这个看似不可能完成的任务。第四,设计数千个冬奥会威胁检测场景。冬奥会NGSOC预设规则448条。冬奥会开幕前,规则数量已达958条,比赛期间还会有新的场景要求,每天都在增加规则。冬奥会结束规则数量达到1043条,覆盖了云上云下所有核心资产的威胁、异常、违规监控场景。小到场馆服务器上部署的办公机器和业务组件,大到数据中心的业务系统和安全防护系统,几乎所有有IP设备的系统和服务提供商都会收集日志,这些日志对于分析和监控非常有价值。有相应的监控场景。不仅可以监控外部入侵、社工钓鱼、恶意破坏、恶意软件等各种威胁场景,还可以监控内部员工违规、异常操作等场景;它不仅可以监控突发的漏洞和安全事件,还可以在日常操作中对其进行监控。持续监控各个系统和服务的运行状态。整个冬奥执勤期间,通过外部入侵场景监测告警1118起,违规异常操作场景监测内部人员操作不当事件7起,正常操作场景监测设备断电事件3起,数据中断6起事件。在冬奥会上,规则条数优化到145条,告警前的误报(业务触发的误报)数量让监控人员厌倦了分析。现在日均告警量不超过427条,日志告警比例为7860974:1,实现了未漏掉任何安全事件的成绩。第五,设计高并发,支持多人同时操作。按照NGSOC平台冬奥项目的设计要求,需要支持200人使用50+人并发访问,这是前所未有的规模。这种并发访问对整个系统造成了很大的压力,会导致系统负载急剧上升。对此,NGSOC研发团队的主要优化方案包括:一是针对瓶颈节点优化集群部署节点。识别瓶颈节点后,调整集群部署方案,将资源向瓶颈节点倾斜。在并发的情况下,性能损失非常大,集群大小必须保持在一个合适的水平。二是优化数据库,调研冬奥运行场景,根据冬奥运行场景优化数据库配置,通过性能监控工具对所有耗时的数据操作进行排查,逐项设计优化。最终,NGSOC平台在日均35亿条日志的高吞吐量、50+人并发操作的条件下实现安全稳定运行。结语:在“人+工具+流程”高效运作的支撑下,冬奥会安全运营的实际成效有目共睹。一是制定了标准化流程安全运行的SOP,充分保障了业务的正常运行。冬奥会网络安全监控值班经理提到:“安全操作SOP极大地提升了团队的信心,每个人都清楚地了解自己的工作职责,避免因不明真相而处理不当。这样一来,业务系统在比赛现场可以更有效率的跑。“其次,NGSOC的多项功能极大地提升了安防运营效率。比如大屏的实时监控,是安保人员使用频率最高的,这个大屏放在冬奥会的中间安全运营中心,每30秒刷新一次,高危告警会闪烁并发出警报,每个人都可以看到告警情况,便于及时跟踪和解决。告警TOP5直观提醒安全运维人员可能是规则有问题,当告警每天都在TOP5时,可以在平台上查看告警的规则解释,NGSOC平台所有告警都可以在规则解释里查看,这个detail大大方便了我们查看是根据什么规则产生的告警,也方便找威胁建模工程师优化规则,直接解决了冗余a的问题报警问题。警报的高级过滤功能特别有用。通过预先设置的告警过滤器,每个监控值班管理员可以查看不同的告警内容,大大提高了告警处理的效率。“NGSOC作为一个运营平台,最大的期待就是能够发现,能够追溯,最好能发现所有的安全事件,通过一个平台完成所有的操作,而NGSOC平台确实做到了。”冬奥会网络安全监控值班经理总结说,这是NGSOC的高并发,整个产品系统联动,告警处理得当,首先是高并发,几十个人在做NGSOC同时运行,这对NGSOC并发要求很高,但是整个冬奥会期间NGSOC一直运行顺畅;其次,NGSOC和奇安鑫泉产品系统的接入覆盖了监控范围,涵盖了云上云下的所有业务,平台需要完成所有的监控、分析和处置工作,并与安全运营SOP紧密结合,此外,除了安全事件回溯,平台还可以还可以追溯告警处理人员、处理过程、处理结果,告警评论功能,可以对每条告警的处理写出结论,所有类似的告警可以通过之前的告警进行关联,分析是否有历史发生,查看结论,从而快速分析判断,无需重复监控处理过程。如果说冬奥会安全运营中心是奇安信兑现“零事故”承诺的重要保障,那么安全运维和应急响应就是安全运营中心的保障。在下一篇文章中,我们将进一步为您介绍冬奥会安全运营中心安全运维保障和应急响应保障背后的故事。
