运维是数据中心的一项重要工作。数据中心一旦建成,后期将经历很长一段时间的运维。升级扩容,使数据中心能够持续开展新业务。因此,数据中心非常重视运维工作,运维水平反映了数据中心的整体业务水平。随着数据中心领域的蓬勃发展,对运维工作提出了更高的要求,而运维工作也需要不断完善,以适应新形势和数据中心发展的需要。本文将详细谈谈数据中心运维横向发展的路线图,看看高层运维工作体现在哪些方面。数据中心运维的发展原则有两个方面:一是尽量不靠人来管理。要知道,数据中心80%的故障都是人为故障,人的参与程度越高,出错的概率就越高。相反,机器会一直按照预定的程序执行。除非装备有BUG,否则绝对不会出错。当然,BUG也是人为的,所以数据中心的自动化运维水平越高,就越安全。概率较低;二是尽量避免失败,而不是在事后才想,“事后补救已来不及”,不要总是做事后补救的事情,排除可能的可预见的风险,以避免故障的发生。故障发生后,快速解决故障是一种能力,但不要过于依赖。不能等到故障出现了再解决问题。应及早规避风险。“大水难复”,故障后对数据中心的负面影响往往需要更多的精力去修复,有时故障是致命的,数据中心可能一去不复返,只能关停。任何数据中心运维工作都必须按照这两个原则开展,才能不断提高其数据中心运维水平。数据中心运维水平也可以从两个方面来看,一是运维效率,二是建立规范的机制。首先,在运维效率上,从低到高分为四个阶段:一是全人工运维。这种运维方式适用于早期数据中心规模不大或者业务流量不大的情况。这类数据中心的系统复杂度不高,设备数量少。日常业务运维操作更多依赖人工逐一登录设备,缺乏必要的操作规范和流程机制。运维人员的个人经验很重要,传承性不强。数据中心不得不过多依赖少数个体运维技术专家来维护。其他人员出错的概率会增加,工作效率低下;操作和维护。这种运维方式适用于大型数据中心。运维人员开始使用批量操作工具。针对不同类型的操作出现了不同的脚本程序。当需要更改设备配置时,可以通过脚本程序统一执行,提高运营效率。比如批量升级设备,可以提前写一个脚本程序,当指定的时间到来时,脚本程序会自动运行,将服务器上的软件程序下载到设备上,然后执行升级命令.所有设备的执行步骤相同,可以大大节省人力。以前手动升级每晚只能升级几台设备,现在通过脚本可以在一晚上升级整个数据中心的设备。但每次操作的需求不同,脚本工具需要不断调整。可编程处理能力弱,批量执行也可能引发更大规模的问题。调整、运维效率不高;三是平台运维。这种运维对运维效率和误操作率有更高的要求。通过承载标准和流程的平台,解放人力,提升品质。平台运维对服务的变更动作进行抽象,形成统一的操作方式、服务目录环境、服务运行方式等标准,通过平台对操作流程进行约束;四是自主运维体系。这种运维适用于业务数量更多、更复杂的数据中心系统。是目前数据中心推荐的运维方式,极大的解放了人力。自主运维系统抽象出服务变化,调度系统根据资源使用情况将服务调度部署到合适的服务器上,并自动完成与周边运维系统的联动,如监控系统、日志系统、备份系统等。自主运维系统还具有故障检测和故障自动排除能力。另一方面是规范机制的建立。俗话说,“没有规矩,不成方圆”。在数据中心,必须建立规则,制定各种规章制度并有效执行。规范的建立也需要从低到高经历四个阶段:一是没有标准机制,整个数据中心运维处于无序状态,工作效率低下。这在一些小型数据中心或机房中很常见。太多的规范体系有点繁琐;二是建立规范的人工约束。系统加强对人的管理,通过规范人的操作流程,降低人为失误的概率。数据中心制定了一系列的操作规范,什么不能做,什么可以做,谁可以做什么等等,运维人员必须遵守规范;三是完善规范,不断完善规范,防止出现管理漏洞,运维工作遵循一系列规范制度,做到有理有据,提高数据中心运维效率,并给予奖励基于这些先前制定的规范制度,对运维人员进行了明确的规定;四是系统自动约束。此时的数据中心已经完全采用了自运维的系统方式,很少有人工参与。因此,过去制定的一系列规范制度都成了废纸。我们只需要将标准操作输入运维系统即可。系统可自行调整,自动运行,确保不会出现不规范操作。数据中心建设规模越来越大,人工方式已经不现实。需要将所有的运维工作自动化,减少人的重复性工作,让我们的运维交付更高效、更安全。数据中心运维技术发展的目的是将人们从繁琐枯燥的运维工作中解放出来。数据中心所有运维活动由人工处理转变为系统自动执行。
