数据中心最怕什么?停电、网络损坏……数据中心运维人员最怕什么?数据中心业务的网络变得异常复杂。为适应数据中心业务的发展,数据中心网络不断更新变化,给运维工作带来了极大的难度。数据中心宕机事故在所难免,这不仅增加了数据中心运维人员的工作量,更重要的是给数据中心带来了巨大的损失。即便是享誉全球的互联网巨头,也经常享受这样的“待遇”。互联网巨头不断走下坡路,运维工作成了难题。3月3日凌晨,阿里云出现宕机故障,引发企业购买阿里云服务的网站或互联网公司APP无法正常使用,一大波程序员、运维不得不起床上班。58资深架构师表示,事故持续约3小时,事后观察了2小时,5月3日凌??晨3点43分开始,微软Azure在全球范围内出现大规模宕机,整个过程持续近2个小时,直到凌晨5点30分才完全恢复。受Azure宕机影响,Microsoft365、Dynamics、DevOps等微软主要服务出现使用问题。6月3日凌晨2点58分开始,谷歌在全球范围内遭遇大规模宕机,包括Gmail、YouTube、GoogleDrive在内的众多基于谷歌云架构服务的谷歌服务受到影响。用户访问谷歌服务时出现各种错误提示,无法访问电子邮件、上传YouTube视频等。据6月25日消息,亚马逊在官网确认其云计算服务宕机,影响网络连接一些网络用户和多个AWS区域。故障节点位于AWS美东1区,共有33项服务受到影响,其中9项服务完全中断。停机事故频发,运维难度“更上一层楼”。宕机事件证明了数据中心运维的重要性,但又似乎不可避免。如今,随着科技的进步和万物互联时代的到来,数据中心作为重要的基础设施发挥着重要的作用。数据中心在中国的发展虽然只有十几年,但从只有UPS、空调和IT设备的普通机房发展而来。时代进入了包括互联网、大数据、AI、云服务、万机柜在内的全方位服务,以及自然冷却、风墙、水下数据中心、液冷服务器等新技术的新时代..运维管理由此面临更大的挑战,运维难度也被“提升了一个档次”。第一,超大规模数据中心带来的人员、组织和效率的变化。过去,小于10,000平方米的数据中心需要人工巡检2-4小时。现在,几十万平方米需要更多的运维人员分布在不同的责任区域,增加了管理的难度和成本;其次,电压水平增加,安全风险增加。过去运维人员接触的是低压,现在供电设备、发电机、冰箱都是高压供电,维护安全要求提高;此外,规模集中,导致风险集中,事故影响较大。比如前文提到的数据中心宕机事故,在全球范围内造成了大规模的服务和应用中断,损失惨重,运维管理的压力就在眼前。减少人为失误,提升运维管理专业技能根据数据调查,70%的数据中心宕机事故都是人为失误造成的。因此,在数据中心规模不断扩大的同时,运维人员必须提高自身技能和专业水平,以应对数据中心事故:建立完善的人员技能评价体系,考核运维人员的技能和能力多方面的人员,可以有效帮助运维人员提升运维技能,促进运维人员的主动学习和自动化维护。推动。在线学习运维经验,建立运维经验库,实现在线运维经验分享交流平台,在线实践和学习运维知识的渠道。实际运行环境在线模拟,提供运维模拟实践运行环境,有效隔离运维风险,有助于快速提升运维实际水平。理论能力在线测评,依托海量IT云平台组件题库,定期考核,随机出题,实现运维理论能力在线实时自动测评。实用技能在线测评,构建轻量级在线运维操作、在线编程环境,实现运维技能和研发技能在线实时自动测评。通过自动评估提高效率,实现运维理论技能和实践技能的在线科学自动评估,提高评估效率,确保能力的客观公正发挥。为了弥补人工运维的不足,智能运维应运而生。现在,数字时代已经到来,数据中心的规模和容量呈指数级增长。运维管理的复杂性和难度也越来越大。从脚本运维、工具运维、平台运维发展至今,人力已经接近极限,智能运维应运而生。如今,腾讯、华为、京东等更多数据中心企业开始加大研发力度,投入智能运维浪潮,将人工智能与运维相结合,在现有运维基础上,运维数据(日志、监控信息、应用信息等),利用机器学习的方法提高运维效率,从而逐步替代人工运维。相信未来数据中心会越来越智能。
