当前位置: 首页 > 科技观察

说说数据中心的日常维护工作

时间:2023-03-21 00:51:36 科技观察

数据中心的稳定运行需要大量的专业技术人员。一般承担重要业务的数据中心24小时有人值守,无人值守的数据中心一般只承担不重要的业务,完全无人值守的数据中心几乎没有。因此,数据中心的日常维护工作虽然繁琐,但却非常重要。随着人们的工作和生活完全依赖于数据,承载数据计算和运算的数据中心发挥着越来越重要的作用,这就凸显了维护工作的重要性。当数据中心建成并投入运行时,维护工作就开始了,直到数据中心生命周期结束。一般来说,我们可以将数据中心的维护工作分为四类:一是日常巡检;另一个是应用变更和部署;三是软硬件升级;四是应急故障处理。下面就说说这些保养工作,让大家对保养工作有个了解。每日巡视“千里之堤,崩于蚁穴”。任何故障都可能在它发生之前出现。小隐患不消除,就可能导致大故障。因此,数据中心日常的例行巡检工作很枯燥,但也很重要。一些作业中的隐患可以及时发现。根据数据中心承载的业务重要性,应对数据中心内所有运行设备进行例行巡检。一些数据中心设备制造商提供检测软件,例如网络管理软件和安全防护软件。这些软件可以用来检查数据中心网络,看日志有没有异常告警,网络有没有短时间中断,端口有没有UP/DOWN等。用网络检测软件看如何网络质量是。检查服务器应用服务是否正常,CPU、内存使用率是否正常。检查应用业务。比如有搜索业务,可以通过服务器进行词搜索,看搜索结果和延迟是否在正常范围内。每天重复这些检查。一旦出现异常,及时处理、排除。必要时将重要业务切换到备用环境,排除后再切回。数据中心的机房环境也要检查一下,看环境的温度、湿度、灰尘是否符合要求。空调和供电系统是否运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的环节。不合理的地方要及时改正,不能偷懒。经常去一些数据中心,会发现很多值班的维护人员手里拿着电脑在浏览网页,玩游戏。把日常检查当心,甚至根本不检查,只要不出故障,就玩游戏浪费时间,数据中心迟早要出故障。一旦出现故障,就会乱七八糟,甚至连哪个业务使用了哪些设备、哪个端口、哪条网线都不清楚。本来,小毛病可能因不熟悉而酿成大毛病,所以日常检查千万不能随便处理。虽然需要重复,但是很重要,在不断检查的过程中,对数据中心的了解会越来越深,从而在每次检查中都有新的发现,在检查中不断学习。应用变更数据中心承载的业务不会保持不变。随着业务的多样化,往往需要对业务进行调整,包括服务器和网络的设置。因此,要熟悉服务器和网络设备的操作,主要需要掌握Linux服务器命令和网络协议。应根据应用程序的需要进行更改。这时候对维修人员提出了更高的要求。不仅要对数据中心原有业务非常熟悉,还要对新的应用业务有正确的认识,才能在不影响原有业务的情况下进行。调整。这样的应用变更可能一个月要进行数次,是数据中心维护人员的必修课,凸显技术人员的基本功水平。这时候一定要熟悉设备操作命令,知道如何实现业务,经常和设备厂家的技术人员打交道,通过交流尽快掌握设备操作方法。同时,由于设备制造商对应用业务的了解不足,需要维护人员对应用业务和设备的具体实施进行协调处理。以最快的时间、最低的成本完成应用业务部署。软硬件升级数据中心设备一般运行周期为五年,部分设备需要逐步淘汰更换,部分设备因软件缺陷需要升级。因此,软件和硬件升级也是维护工作的一部分,尤其是在软件和硬件出现故障的情况下,必须更换。有时为了不影响业务,往往会要求设备厂商提供软件补丁来解决问题。数据中心有数百台设备,出现软硬件故障很正常。因此,必须不断地进行软硬件升级。这种工作往往在业务量最少的清晨之后进行。维修人员熬夜是家常便饭。维修人员必须有良好的身体素质,否则会不堪重负。软硬件升级时,需要有回滚机制,防止升级出现问题回滚无法回滚,业务长期无法恢复。当接手数据中心的维护工作时,你会发现为什么升级那么多,几乎每个月都有升级操作。熬夜升级工作已经成为维护人员的家常便饭。突发性故障没有一个数据中心是不会发生故障的,在数据??中心的运行过程中会出现各种各样的问题。这时候就说明维修人员的技术水平之高了。据统计,80%的故障都是人为故障,因此维护人员的水平往往决定了一个数据中心运行的稳定性。另外,对于突发性故障,高水平维护人员可以静下心来分析故障触发原因,迅速找到解决方案。如果短时间内找不到解决方案,也可以通过切换到备用设备来恢复业务,然后再进行分析。这时候,一个数据中心拥有高水平的维护人员就显得非常重要了,关键时刻能够派上用场。尽管这些工作看似平凡,但不要低估它们。数据中心维护其实非常重要,关系到整个数据中心业务的正常运行。目前,此类专业在市场上非常抢手,尤其是故障排查层次较深的人才。只有重视数据中心的维护,数据中心才能安全。