背景:2月23日19点,我们收到系统监控告警,提示服务失败,随即拨打电话相关技术人员进行定位。发现大面积服务集群无法响应,生产环境和数据严重受损。我们第一时间启动应急机制,与腾讯云技术团队一起研究制定了生产环境和数据恢复方案。截至2月25日7点,我们的生产环境和数据恢复工作正在有序进行中。我们预计我们的生产环境会在2月25日24:00之前修复,所有微盟新用户都可以恢复服务对于老用户,由于数据恢复时间问题,我们会提供一个临时的过渡方案。预计2月28日24:00前完成老用户数据恢复。随后,我们对恶意破坏生产环境的犯罪嫌疑人进行跟踪分析,成功定位到犯罪嫌疑人的登录账号和IP地址,并于2月24日向宝山区公安局报案。目前,犯罪嫌疑人已被警方抓获。宝山区公安局。刑事拘留,犯罪嫌疑人承认犯罪事实。嫌疑人为微盟研发中心运维部核心运维人员何某。在线生产环境遭到恶意破坏。——微盟集团正文开始前,让我们重温著名的阿西莫夫机器人三定律,定律一:机器人不得伤害人类,或因不作为而导致人类受到伤害;定律二:除非违反第一定律有一条定律是机器人必须服从人类的命令。由此引出本文的一个重要观点,即人是系统可靠性和信息安全的最大敌人。就在前天晚上的晚饭时间,微盟发生了一件大事。一个情绪剧烈波动的运维同学删库,引起轩然大波。好在在微盟和腾讯云的努力下,相关数据都在有序恢复中。回顾这两年的数据库删除事件,可以说是层出不穷,有误删的,有介质损坏的,还有人为造成的。单从这件事来看,就很严重了。肇事者被拘留,公司损失惨重。那么如何吸取教训,如何规避,下面我们就通过微盟事件的一些细节来分析一下企业信息安全的虚假壁垒。观点一:需要什么样的权限来限制运维?现在的远程办公场景中,很多人都纠结于VPN权限问题。此权限不是其他权限。今天我们说的是权限相关的危险行为的限制,不是运维。职位要求的绩效权限。事实上,人的行为比想象的更危险,尤其是关键岗位,这种危险一般来自于:(1)不知道自己的行为有多危险;行为,所以权限的控制首先要从限制危险行为开始。一直以来,笔者一直觉得在产线环境下传单是一个很不好的习惯,除了那些在领导面前炫耀自己本事的人。在我看来,一个公司运维的技术能力,安全管控体系是否完善,都可以通过运维人员的具体操作和权限控制看出来。完全人性化指挥,体现运维能力和安全性管控系统越弱,运维能力和安全管控系统越强,运维能力输出自动化平台。1.rm、mv、alias等危险命令要严格控制;应使用尽可能详细的权限认证;禁止直接使用root用户。这些大家耳熟能详的规则,其实就是运维的门规,是日常运维中必备的preparedchecklist。但事实真的如此吗?如何通过这些有效手段限制这些危险行为?2、一个好的运维输出能力应该是这样的,人管理代码,代码管理机器,而不是人管理机器。你可能还记得DevOps的目的,就是在组织层面提高效率和质量。放在这里不是一个好的解决方案,危险的行为是由机器执行的。从信息审计的角度来看,现网环境的每一次变更,也是一次变更,一次环境发布,可以跟踪、追溯、记录、审计。3.我们回到阿西莫夫的机器人三定律,定律3:机器人必须保护自己,除非它违反第一和第二定律。当一些危险行为发生时,系统的使用者和管理人员应该采取预防措施。除了检查表还有更好的方法吗?那就是分而治之。操作员发起操作请求,审核员审核操作请求,机器来执行请求。4.过大的权限控制是错误的。这是一种倒车,并不是所有的动作都是危险的动作。因为故障不同于灾难,除了人为之外,有时候老天也会和你作对,介质损坏,设备故障,病毒感染会让你的权限控制无用,该发生的故障会不请自来,你的checklist,操作而维护流程和权限体系就没有用了,那么需要什么样的权限来约束运维,又不会增加太多的人力、物力和财力,不外乎三点。(1)构成极端危险行为的行为;(2)平台化自动化运维;(3)网上评审流程。观点二:如何做备份?如观点一所述,当你的checklist和权限控制无法掌握时,你需要的是一种实用的备份和恢复方法。一般来说,在没有热备份的情况下进行危险操作,不亚于不系安全带开200英里的跑车。你很幸运能活着。在这次事故中,我们发现恢复时间是最亮眼的,不亚于顺丰删仓事件中的恢复时间,非常长。仔细分析,除了始作俑者同时删除了主备数据库,只保留了冷备份外,也是不幸中的幸事。每个人都有备份,那备份还好吗?1、备份时间问题,全量和增量时间都会影响你备份数据的数据失真。比如你把备份的数据恢复到现网环境,在这段时间里,如果你对数据进行增删改查,你备份的数据就会失真,所以你需要热备份,同时也需要备份所有DDL和DML语句的记录。2.回收验证。许多公司在实施备份策略的这些年里从未进行过恢复测试。事实上,当发生重大故障或灾难时,您会发现各种问题都会导致您的恢复失败,例如介质问题和数据问题。和操作问题。观点三:云厂商的选择云计算引爆了互联网的发展,越来越多的企业选择了上云。也可以预见,云计算的未来就像今天的电力一样,已经完全成为信息经济社会的基础资源。因此,云提供商的选择极为重要。对于微盟,事故发生后,腾讯云技术团队第一时间与微盟结盟,研究制定修复方案,协助微盟将损失降到最低。删库事件是不幸的,选择腾讯云是幸运的。不难想象,如果没有腾讯云的助力,后果可想而知。观点四:工程师伦理在谈工程师伦理之前,我们先来说说伦理、制度和法律的关系。准确地说,靠道德和专业约束自己,靠制度规避风险,靠法律惩戒违法行为。其实所有的风险都是完全靠技术来解决的,成本会非常高。只有通过制度、技术、企业文化、价值观才能防范和防范。对管理者来说,要让员工有所成就,就是把人看作一个有机的样本,具有特殊的生理和心理特征、能力、缺陷和不同的行为模式。把它看成一个活生生的人,而不是一个东西。对于工程师来说,需要的不仅是诚信,更是对法律的尊重。第五点:请多多理解。在安全管理方面,微盟确实做了大量的工作,对服务和数据库的权限限制非常严格。但是,在特殊情况下的远程工作期间,遇到这样的事故,着实令人同情。据我所知,腾讯云目前正在尽最大努力帮助微盟和客户,希望在他们的共同努力下,尽快恢复。
