你没有看错,本文的主题是“造成系统重大宕机的15种方法”。图片来自Pexels。仔细研究后你会发现,关闭系统是一件很有技术含量的事情。队员不瞎,老板也不傻。怎么可能看着你破坏?但梦想还是需要的,梦想就像内衣,你有,但不必每次遇到人都证明自己有。采访了5位资深技术专家,他们在职业生涯中都有过“删库跑路”、“rm-rf/*”等辉煌经历,总结了造成重大系统宕机事故的15种方法。每一个都是血泪史。1.每周15个以上在线bug15个在线bug,这是最低要求,没有上限,越多越好,让团队成员对在线问题变得麻木不仁。这是一小步,但对于一个严重崩溃的系统来说却是一大步。2、每周上网事故3次以上偶尔上网事故不难,但很难坚持每周上网事故3次以上,这需要坚定的信念。出了事故,让开发人员在线调试代码,不要急着复产,我行我素,让用户崩溃。3、超过50%的新入职开发人员忙于招新人。新人来了马上改代码,容易产生一些莫名其妙的bug,离线宕机的目标又向前迈进了一大步。4.让high-P的核心开发人员离开,让low-level的人接管P6和P7的开发,让P4的人接手。不需要交文件,交的越快越好。节省成本,老板肯定会同意的。5.每周发布版本4次以上。每周频繁发布版本。开发和测试越忙越好。鞋子什么时候湿的。6、程序员连续45天以上996。996对TMD来说是个好消息。需求被压死,几个不累吐血的永远不会停。这让开发身心俱疲,精神恍惚,出错概率增加10%。7、当迭代中需求变更率超过40%时,有“杀程序员不用枪,只需要改三遍需求”的说法。三次太少了,需求变更率40%起步,越频繁越好。友情提醒一下,产品经理的背包里总有一些砖块、瘀伤、遗书之类的东西,暂时拿不到可能就来不及了。8、开发人员和测试人员的比例为8:1。以上都是有天赋的全栈工程师,为什么还要测试?我曾经遇到过站在我面前的天才程序员。我们对视良久,心怀眷恋,直到手累了,我才慢慢放下镜子。9、不使用DevOps工具,就不要使用自动化运维工具。找几个运维小弟,临时写Shell脚本,相信力量!10.不使用压测工具,该展示点真技术了,多表连接复杂的SQL,多线程要飞,代码裸奔...11.上线有没有rollback计划rolling计划?如果你不成功,你就会成功。开弓就没有回头路。12、运维可随意更改在线配置。运维就是放纵,热爱自由。这就是我,不同颜色的烟花,我就是我,我看到自己着火了。13.DBA情绪不稳定。有人说DBA不是免费的,手机要实时在线,随时待命。成为DBA后才明白,想删库就删库,想坐牢就坐牢。这是非常免费的。14、业务爆发式增长的技术已经差不多安排好了,需要一批爱折腾的营销和运营人员。秒杀每天开10场,组团死活组织,推广“满100减200”,一切以碾压系统为目的,证明技术是愚蠢的。15.经常发布主要版本。不要做敏捷开发。每两个月统一发布一次。如果你想做大版本,你找不到问题出在哪里,因为几乎所有的模块都被更改了。你酸不酸?不管你愿不愿意承认,我们在日常工作中或多或少都在践行以上15种方法。希望您将这篇文章转发给身边的朋友,时刻用“海因里希定律”来唤醒自己和团队。系统停机只是一个结果。雪崩期间,每一片雪花都冲向世界,没有人是真正无辜的。作者:Mr.K简介:知名电商技术部资深K级人物。Wen出版了一本畅销书,Wu担任了CTO。如果不是生活所迫,谁愿意出人头地。编辑:陶佳龙来源:转载自公众号技术领导(ID:jishulingdaoli)
