运维难度“更上一层楼”——不存在！

时间：2023-03-22 01:50:00 科技观察

数据中心最怕什么？停电、网络损坏……数据中心运维人员最怕什么？数据中心业务的网络变得异常复杂。为适应数据中心业务的发展，数据中心网络不断更新变化，给运维工作带来了极大的难度。数据中心宕机事故在所难免，这不仅增加了数据中心运维人员的工作量，更重要的是给数据中心带来了巨大的损失。即便是享誉全球的互联网巨头，也经常享受这样的“待遇”。互联网巨头不断走下坡路，运维工作成了难题。3月3日凌晨，阿里云出现宕机故障，引发企业购买阿里云服务的网站或互联网公司APP无法正常使用，一大波程序员、运维不得不起床上班。58资深架构师表示，事故持续约3小时，事后观察了2小时，5月3日凌??晨3点43分开始，微软Azure在全球范围内出现大规模宕机，整个过程持续近2个小时，直到凌晨5点30分才完全恢复。受Azure宕机影响，Microsoft365、Dynamics、DevOps等微软主要服务出现使用问题。6月3日凌晨2点58分开始，谷歌在全球范围内遭遇大规模宕机，包括Gmail、YouTube、GoogleDrive在内的众多基于谷歌云架构服务的谷歌服务受到影响。用户访问谷歌服务时出现各种错误提示，无法访问电子邮件、上传YouTube视频等。据6月25日消息，亚马逊在官网确认其云计算服务宕机，影响网络连接一些网络用户和多个AWS区域。故障节点位于AWS美东1区，共有33项服务受到影响，其中9项服务完全中断。停机事故频发，运维难度“更上一层楼”。宕机事件证明了数据中心运维的重要性，但又似乎不可避免。如今，随着科技的进步和万物互联时代的到来，数据中心作为重要的基础设施发挥着重要的作用。数据中心在中国的发展虽然只有十几年，但从只有UPS、空调和IT设备的普通机房发展而来。时代进入了包括互联网、大数据、AI、云服务、万机柜在内的全方位服务，以及自然冷却、风墙、水下数据中心、液冷服务器等新技术的新时代..运维管理由此面临更大的挑战，运维难度也被“提升了一个档次”。第一，超大规模数据中心带来的人员、组织和效率的变化。过去，小于10,000平方米的数据中心需要人工巡检2-4小时。现在，几十万平方米需要更多的运维人员分布在不同的责任区域，增加了管理的难度和成本；其次，电压水平增加，安全风险增加。过去运维人员接触的是低压，现在供电设备、发电机、冰箱都是高压供电，维护安全要求提高；此外，规模集中，导致风险集中，事故影响较大。比如前文提到的数据中心宕机事故，在全球范围内造成了大规模的服务和应用中断，损失惨重，运维管理的压力就在眼前。减少人为失误，提升运维管理专业技能根据数据调查，70%的数据中心宕机事故都是人为失误造成的。因此，在数据中心规模不断扩大的同时，运维人员必须提高自身技能和专业水平，以应对数据中心事故：建立完善的人员技能评价体系，考核运维人员的技能和能力多方面的人员，可以有效帮助运维人员提升运维技能，促进运维人员的主动学习和自动化维护。推动。在线学习运维经验，建立运维经验库，实现在线运维经验分享交流平台，在线实践和学习运维知识的渠道。实际运行环境在线模拟，提供运维模拟实践运行环境，有效隔离运维风险，有助于快速提升运维实际水平。理论能力在线测评，依托海量IT云平台组件题库，定期考核，随机出题，实现运维理论能力在线实时自动测评。实用技能在线测评，构建轻量级在线运维操作、在线编程环境，实现运维技能和研发技能在线实时自动测评。通过自动评估提高效率，实现运维理论技能和实践技能的在线科学自动评估，提高评估效率，确保能力的客观公正发挥。为了弥补人工运维的不足，智能运维应运而生。现在，数字时代已经到来，数据中心的规模和容量呈指数级增长。运维管理的复杂性和难度也越来越大。从脚本运维、工具运维、平台运维发展至今，人力已经接近极限，智能运维应运而生。如今，腾讯、华为、京东等更多数据中心企业开始加大研发力度，投入智能运维浪潮，将人工智能与运维相结合，在现有运维基础上，运维数据（日志、监控信息、应用信息等），利用机器学习的方法提高运维效率，从而逐步替代人工运维。相信未来数据中心会越来越智能。

上一篇：关于成为一名像样的前端攻城狮

下一篇：别再掉进算法陷阱了！找到身后的Ta

运维难度“更上一层楼”——不存在！相关文章