当前位置: 首页 > 科技观察

从812到新冠疫情,数据中心该如何从自愈到自救?

时间:2023-03-18 16:57:13 科技观察

我们知道,作为整个IT架构最底层的关键基础设施,数据中心的设计是一件非常严谨的事情。冗余,这两个词贯穿于数据中心各个子系统的设计过程,是高频关键词。得益于2N或N+m的完美冗余,数据中心如冰冷的钢铁巨人般越发坚固。地震是有可能发生的,只要烈度不超过8级,都可以承受;停电、停水,即使两个一起来,两三天之内,也能承受;台风,有计划,可以承受;携带……至于设备级故障,那是数据中心设计中“并行维护”的最初要求,甚至允许多个设备故障神奇地同时发生。数据中心正是当具有自愈能力的病毒进入人体时,正是考验人体自愈能力的时候。自愈能力不够,又没有特效药帮忙,只好选择送人头;自愈能力强,病毒在不知不觉中被杀死。那么,既然有这么强大的自愈能力,数据中心还怕什么呢?当然。最怕应急预案之外的、来源于外部的不可抗力事件。五年前发生在天津的8.12大爆炸,以及当前抗击新冠病毒,都属于此类事件。812事件的详细情况在此不再赘述。有兴趣的同学可以通过《没有观众的裸奔》重温痛苦的回忆。天津数据中心距离爆炸核心区不到1.5公里,损失惨重。爆炸声一响,数据中心发现8个故障点,包括冷水机停机、爆管、地下室水浸等严重故障。只要应急预案能够覆盖现场,就可以有序处置。80分钟后,8个故障全部解决,各系统运行平稳。当然,光有计划是不够的。正如我们事后反复强调的那样,平时的应急预案和不折不扣的演习是关键时刻的救命稻草。第一时间处理故障是数据中心的职责,也是展示其自愈能力的舞台。但第一天远没有达到高潮,之后发生的一系列事情,让日常值班变得格外漫长。在大多数情况下,数据中心在没有外部帮助的情况下依靠自身的自我修复能力来消除风险。但在“敌人当前大局为重”的门槛下,一旦事态升级,当政府要上门“救助”时,问题就来了。清理完毕后,庞大的天津数据中心空无一人;我们常说的“无人值守”一下子变成了现实。在这种情况下,如何自救?可见,拥有一个完整、准确、可随时随地登录、并允许远程修正关键运行参数的数据中心监控系统是多么重要……这里省略666个字。当年天津是怎么做到的,可以参考上文《没有观众的裸奔》。天津数据中心虽然通过了812的考验,但也暴露出一些问题。尤其是无人值守的综合控制能力。我们常说教训比经验更宝贵。经此一战,腾讯加大了对数据中心自动化系统的投入,集中优势力量,迅速推出了“腾讯知微”监管管控平台,并与全行业开源共享。请了解更多关于《助力产业互联网升级 腾讯推出数据中心智慧运维全栈解决方案》的信息。所以,在几年前新冠病毒还没有真正爆发的时候,我们就已经在全国各个数据中心提前做好了无人值守的准备工作。在极端情况下,政府介入清理场地后,可能还有很长一段时间才能启动“无人计划”。类似的极端情景还可能包括化工厂泄漏、监狱暴动等只能凭想象预测的不可抗力事件。今年的春节,每一个中国人都过着不平凡的生活。丑陋的半兽人“冠状病毒”带着病毒大军来到了这座城市,全国各地的数据中心,连同中洲的所有部落,都在打一场保卫战。信息上报、100%追踪、消毒无死角、内外物理隔离、一级严格管控不分青红皂白……只要你能想到,只要病毒有可乘之机,你就一定能达到极致严防。但是也有一些地方可能被我们忽略了。比如数据中心工作人员的心理状态。我们说数据中心的自救,除了能够无人值守之外,其实还包括心理干预。尤其是时间一拖,防御战变成了巷战,更进一步变成了持久战。外面谣言满天飞,里面的人每天都会变得焦虑、敏感、压抑。当然,“我们的运维团队心理素质很强,请全国人民放心。”这是两个不同的东西。“扛”是决心,但对于数据中心来说,主观上要保证团队中每个人的健康和完整,客观上要保证数据中心的安全运行;毕竟,人在焦虑的状态下,很容易出错……至于如何进行心理干预,我党我军有很多行之有效的方法,我就不去尝试了。在这里。政委来了战疫下,每个数据中心自然都有自己的自救之道,也各有精彩。腾讯数据中心温馨提示同行:做好无人值守技术准备;关注值班人员的心理健康。