做云安全运维一年多了。对云安全建设运维略有经验。有施工方向经验。首先贴一张思维导图。云上的安全运维工作主要是围绕这张图展开的。因为我们的身份是云安全的第二方,所以我们不开展SDL工作。1、风险管理风险管理是安全运营的重头戏。风险管理是一个动态过程,工作量不言而喻。我们的风险管理其实和甲方有些不同,比如我们省略了重要资产估值这一步。只要是租户的资产,我们都是ALLINONE,我们专注于更细粒度的风险发现。物品。1.1云上风险项1.2自动化风险监控阿里云几乎所有的产品都支持API调用。通过编写相关规则,可以实现自动风险监控的功能。比如安全组风险,通过下面的代码,可以得到一个Region的所有安全组信息返回的字典数据。Permission字段包含“授权方向”、“IP协议”、“授权范围”、“端口范围”、“授权策略”可以通过下面的示例代码过滤掉高风险的安全组。这里只将安全组风险以为例,其他风险项同理处理,调用阿里云API获取数据,通过规则过滤掉风险项,将6个风险项封装成6个类,思路为面向对象编程。并设置定时任务每天运行一次。1.3风险降低风险降低也可以理解为风险处理。作为云安全的乙方,我们无权直接修改风险租户的项目,我们只能通过以下两种方式通知租户修复:钉钉报警短信报警1.4责任分工平台方:负责发现风险并通知租户方:对风险项目进行整改2.应急响应有资产数量大,安全事件不可避免,因此应急响应也归入安全作业范畴。处理了多起应急响应事件,包括挖矿事件和外部ddos事件。入侵原因top3:ssh暴力破解、redis越权访问、elasticsearch弱口令2.1提前准备编写应急预案工具准备:windows、linux杀毒软件、rootkit扫描工具2.2事件期间处理按照PDCERF模型应急回复。一般情况下,我会按照以下步骤对事件的真实性进行初步的应急判断,找到项目负责人,在承租人的授权下成立临时应急小组,进行应急处理承租人授权后响应工作。进行访问控制,如挖掘通信端口1234,通过网络访问控制立即封堵端口,隔离内网机器,降低内网横向感染风险,分析进程,杀掉恶意进程,检查启动项,删除恶意启动items检查是否存在隐形账号,使用工具自动检查rootkit杀毒软件对整个服务器进行扫描,删除病毒入侵并溯源,重点分析:.2.3事后关注事件发生后,需要保持一段时间关注本机和网段内的其他机器,防止残留后门导致事件再次发生。3、安全检查安全检查是安全操作工作中出现频率最高的工作项目。一般情况下,重要部门一天要检查两次,上午一次,下午一次。3.1编写安全检查计划,记录检查操作流程、检查项目和注意事项。一方面可以为新的安全工程师提供指导,另一方面可以满足安全审查的需要。3.2日常巡检工作假设网络环境分为专用云区和公有云区,有5个租户,每天进行2次安全巡检,则每天巡检次数为10次。需要关注的检查项目包括:态势感知事件主机安全事件基线检查(风险)漏洞检查(风险)那么,大量的检查时间会浪费在五个租户身上。幸运的是,阿里云提供的API可以帮助我们从多租户双区的人工检查中解脱出来。在这里我想表达的是,其实安检本身并没有什么技术含量,而是一项重复、繁琐的工作。善用编程技能可以大大提高工作效率,这也是为什么很多公司要求安全操作人员掌握一门编程语言的原因。3.3记录检验数据检验数据的保存主要是为了审计和问责。(个人观点)如果4月1日早上发生安全事件,作为安全运维工程师没有及时做好巡检,第二天巡检时发现了事件告警,这给租户造成了严重的损失。这个责任是安全工程师必须承担的。检查日志表示例上表4.1没有检查主机的安全事件,第二天发现挖矿事件,导致租户损失惨重。所以,作为安全运维工程师,他应该负主要责任。4、安全产品运营云安全产品运营是我们云安全运营项目的职责之一。租户申请激活/访问,我们访问和配置安全产品。租户申请10个域名访问WAF->安全运维工程师配置->本地修改hosts验证->租户修改dns记录租户申请10个ECS访问堡垒机->安全运维工程师配置->通过测试用户验证可用性->完成配置云盾功能测试。(云盾版本升级后,或同城容灾部署后)5、编写文档编写文档不是安全运维工程师的主要职责。这项工作应该由安全架构师或首席安全官来完成。但有时安全团队会选择信任我,让我完成一些文档。例如《云上安全加固方案》、《安全巡检方案》、《应急响应方案》。有时尝试做一些你不擅长的事情可以帮助你快速成长。6.业务上线审核(TODOLIST)目前租户的业务上线还没有通过我们的安全审核。比如项目方可以有权限自己开启安全组,想怎么开启就怎么开启。业务系统上线前几乎不做漏洞扫描和安全测试。安全工作应该伴随项目规划、项目实施、再到项目上线的整个生命周期。未经审查直接上项目,严重违反安全施工生命周期。这个领域需要标准化,但一直没有时间这样做。
