1、在自动化运维监控工具诞生的初期,IT基础设施通常处于小规模状态。几台到几十台机器的规模足以满足业务需求。很多公司不一定有专门的运维人员或部门。业务开发人员在完成自己的业务工作的同时,也完成了负责管理相关业务的设备。随着云时代的到来,IT基础设施迅速发展为成百上千台服务器。更多业务系统上线,业务人员无暇顾及运维。这时候,运维人员开始专业化,成为独立的部门。推出多种孤岛式运维管理工具,提升运维效率。然而,各种运维工具上线后,大家发现,运维人员仍然经常充当“救火队员”的角色,接告警、修机、宕机到哪里。虽然有运维管理工具可以自动采集监控数据,但仍然存在很多问题,导致底层物理资源的运维无法完全自动化。2、无法避免的人工巡检目前,大多数客户选择的运维监控方式是在操作系统上安装Agent,访问设备驱动程序,读取硬件状态数据。所有监控状态数据采集仅限于驾驶员。驱动程序员的关注点是设备的正常运行,而不是设备的状态监控。因此,驱动程序捕获的硬件状态参数总是有限的。这也能解释为什么很多客户在上线运维监控软件后,仍然需要人工巡检。下面我们来看一下大家经常遇到的一些问题:案例一:某客户的数据库系统上线,三块900G的硬盘做raid5。当出现坏盘时,监控软件是看不到坏盘的,因为系统还在正常运行。经过人工检查,发现设备上有硬盘警告灯。在监控软件下无法查看系统是JBOD还是raid。检查时,数据库服务器出现硬盘告警,此时监控软件无能为力。如果不是人工巡检,这种严重的告警可能连发现都没有。案例二:某客户核心业务服务器配置双电源供电,停电后服务器断电。严重事故发生后,追究责任后发现原来双电源中的备用电源已经掉线。系统下的agent无法监测到冗余电源掉线,因为一直有一个电源在线,电源没有问题,所以不会出现告警信息。最后客户发现监控系统是在线的,但是还是需要巡检。案例三:某客户想对老系统进行内存容量扩容,监控软件显示内存容量为256G。有多少个内存插槽?机器上是16G*16还是32G*8?监控软件拿不到!很崩溃,只能去机房拆机检查内存了T_T。。。每天工作量大,加班是家常便饭。它还经常面临因设备问题导致业务中断的风险。监控系统上线后,情况并没有好转。3.Out-of-band解决in-band难点,远离人工巡检从专业角度来说,网络管理可以分为带外管理(out-of-band)和带内管理(in-band)两种管理模式。上述抓取系统下的数据,即客户的生产环境,通过生产网络读取监控数据,属于带内管理。这种管理方式最大的问题是,当系统出现故障时,机器就无法管理了。此外,如上所述,可用的监测数据是有限的。并且几乎所有的IT设备厂商都为客户提供带外管理端口,即与生产系统隔离的管理端口。在管理界面下,设备厂商自己提供详细的硬件参数。这些硬件参数直接来自服务器上的一百多个传感器,状态参数直接从硬件层面获取。数据更加详细、全面、直观。带外监控通过传感器监控服务器的状态,就像在设备上安装了数百个摄像头一样,时刻巡视着设备的运行状态。冗余电源掉线,机器上任意内存容量,内存频率,内存插槽信息,HBA卡插槽信息等,这些带内软件无法捕捉到的信息,都可以通过带外监控获得。这相当于人工检查、拆卸和检查选项。而且,轮训所有机器的时间比人工检查的时间要长得多。带外监控的轮训周期可以达到秒级,而人工巡检工作量大,每天的巡检周期已经是相当的巡检密度了。利用带内监控弥补带外监控的一些空缺,可以大大提高运维效率,真正意义上不需要人工巡检。四是推广带外管理优势。构建数据中心操作系统带外管理的最大好处是与生产系统隔离,直接实现与机器的对话。这样效率更高,可以有效减少对生产系统的影响。在今天的数据中心,已经为所有设备建立了一个比较完善的带外管理网络。这种日趋完善的架构不仅可以用于带外管理,还可以利用其优势构建完整的底层DCOS(DataCenterOperatingSystem)。发挥带外优势,实施和构建一套完整的底层运维架构。什么是DCOS?DCOS是一个服务于数据中心所有设备全生命周期的管理平台。简单来说,就是对数据中心设备从采购到安装使用,再到维护报废的全生命周期进行管理。通过DCOS全生命周期自动化平台管理,实现部署、监控、分析、管理全自动化,实现数据中心无人值守。尽可能保证服务流程的标准化,减少人为管理。下面我们来梳理一下DCOS需要完成哪些自动化运维工作。1.部署设备进入数据中心,首先要经过DCOS进行业务流程审批,包括上架流程。然后,DCOS进行资产自动化验收,主要检查配置是否符合规范,并对各个选项(CPU/内存/硬盘等)进行自动化压力测试。可以进行选项级资产验证,并捕获所有信息以进行自动更新。例如内存信息可以自动收集所有内存的插槽信息、容量、频率等。设备验收可实现选件级设备验收:如内存,验收内存总容量,同时核实型号、容量、数量信息。设备验收通过后,可通过带外网络自动发现设备,自动获取设备携带的资产信息,自动将设备纳入资产管理。然后从模板库中选择对应的自动化安装模板,实现全自动化安装,包括阵列卡自动化配置、OS配置、上层资源运维标准化基础架构。完成整个过程后,在设备状态列表中将设备状态更新为在线可用状态。在整个过程中,只有申请上市和模板库中的模板选择需要人工干预。其他流程为标准化、自动化流程,可以大大提高部署效率,减少人工操作导致的线上质量不合格问题。2.监控/分析监控和分析是DCOS的核心功能。为了更好地将其与上层资源的运维隔离开来,DCOS采用带外管理的方式,尽可能地与上层业务隔离开来。这样无论上位系统是否正常运行,都可以对设备进行监控和分析。并且带外管理方式可以保证带外管理工作不影响正常的业务运行效率,同时也在一定程度上保证了业务数据的安全。DCOS主要可以从资源、机房、服务、设备等多个角度对数据中心的各种资源进行监控。在不同的视图中,您可以随时查看设备的健康状态和性能状态,并以列表和各种图标的形式更加自动化和直观地展示。对于设备异常状态,可实现多渠道报警,包括邮件、短信、微信等多种形式。DCOS实现了多级告警系统,根据告警的严重程度分为不同的级别。对于一些严重的告警,可以设置告警升级规则,自动向上级告警,实现问题的自动升级。为避免交换机连接的服务器同时告警导致单一故障(如交换机故障)引发告警风暴,DCOS可以自动收敛告警,减少批量告警带来的不必要的恐慌。这样就实现了100%的硬件状态查看。DCOS为所有服务器提供远程虚拟KVM功能,不占用系统资源和网络资源,不需要安装代理程序(Agent)。同时可以节省大量购买物理KVM等设备的采购成本。DCOS通过带外方式自动获取每台设备的主要性能参数,以图形化界面展示,或生成报表,实现设备资产大数据化,帮助分析设备资产的资源利用率,更合理利用和扩大配备的设备资产。通过DCOS的监控分析功能,可以有效替代人工对小型机、X86服务器、存储设备、备份磁带库、光纤交换机等设备进行机房巡检。这种方式大大节省了人工巡检所需的人力,提高了巡检效率。整个监控分析由DCOS后台自动执行,仅需人工干预处理部分设备故障。调查表明,大多数运维事故都是人为失误造成的。相信大家还记得不久前Gitlab运维人员误删库,导致Gitlab网站6小时数据丢失。因此,减少人为干预可以避免更多的运维事故。3、管理管理部分包括数据中心资产(服务器、存储、网络、UPS、精密空调等)资产信息的管理,包括设备位置的跟踪。并自动更新设备维护状态、工作状态等实时状态提醒。帮助形成IT资产的全球统一视图。除了自动生成设备数据清单外,还可以通过过滤信息自动灵活生成资产报表。同时,可以根据数据中心内设备的互联状态,生成数据中心内设备的逻辑视图和机架位置视图。除了资产管理,还需要知识库管理,在运维人员之间,以及运维人员与维护商/厂商之间,形成更快的自动化沟通渠道,使维护商可以更快地更新设备固件和更新。其他信息自动推送给用户,减少了原来繁琐的沟通渠道。DCOS的知识库还可以帮助运维人员实现技术知识的长期积累,可以实现技术文档的快速自动检索,使平台不仅是一个自动化的管理平台,更是一个很好的技术积累平台.部署、监控分析、管理三个自动化功能板块看似相互独立,实则实现了数据的互联互通,为彼此的业务提供数据支撑,形成统一的自动化管理视图。5、未来:“简单生态”运维体系的数据中心运维包括很多内容,自下而上,包括物理资源、虚拟资源、系统、应用、服务的运维。复杂度逐层增加。重要性是基于底层的运维。众所周知,运维部门80%的大部分运维工作都集中在底层物理资源和系统资源的运维上。这符合80/20法则,我们用80%的时间做20%的工作。如果是这样,我们需要将运维工作分开。将20%的工作从整个运维体系中分离出来,通过带外网络架构进行统一管理,建立底层运维的“简单生态”。用更直观、更规范的视图来简化这部分管理,提高基础工作的管理效率,切实提升日常运维管理的质量。这就好像物理设备是一个水杯,设备上承载的上千种服务就是杯子里的可乐或柠檬茶。不管cup里有什么,带外管理的任务只是负责保证cup的完整性,不会有内容丢失。最重要的任务,用最简单的方式保驾护航,才能赢得最好的成绩。未来的理想是通过带外来弥补带内设备管理的空缺,实现真正意义上最好的物理设备管理,保证物理设备24小时正常运行.只需轻点鼠标,即可完成对上千台服务器的运营管理,让生活不再只是眼前一团糟,而是有诗有远方。【本文为专栏作家“王金银”原创稿件,转载请注明出处】点此阅读更多该作者好文
