作者简介韩晓光,IT运维从业者。开发、运维、业务、管理。《系统运维全面解析:技术、管理与实践》、《运维的一天:架构设计、故障处理……》、《实践出真知:云计算新风向》……我们分享三个方面:第一,总结运维经验;第二,讨论操作趋势;第三,建议一些新的操作。首先说一下我个人的分享,可能是个人经历和水平有限,能力有限,眼界有限。欢迎指正,仅代表我目前的观点。另外,我可能会引用网上的图片和内容。今天分享的内容大致分为五个方面:首先说一下运维的定义,要做什么,为什么要做,应该做什么。第二篇分享整个封闭系统架构和开源系统架构的对比分析。第三篇分享传统运维与互联网运维的对比分析。第四,探讨IT运维发展的一些新趋势。第五,为我们的运维同仁提供一些辅助建议。1、什么是运维?运维是做什么的?说实话,我做运维也有十几年了。运维具体是做什么的?刚入行的时候,别人会问我运维是干什么的。我跟他们解释一下,Maintenance可能是修电脑,也可能是维护服务器,也可能是做一些系统维护,可能你的朋友不明白。你回到家,可能七姨八姨会问你什么是运维,你根本解释不通。我不知道,然后我说,网吧,你懂的,他们懂的,他们说,哦,原来你是网管。我有点遗憾。经过这么多的学习,我成为了一名网络管理员。可能这个定义并不准确吧,所以心里一直有个想法。我想探讨一下运维到底是什么,未来我们要做什么,我们运维的价值是什么。看看国外对IT运维的一些定义。英国的CCTA指的是IT服务全生命周期中的一个阶段。通过监控IT服务和IT基础设施,实现备份恢复、角色调度等活动。我想看完这个定义,我还是不知道它描述的是什么。可能和我们的有点不一样。Gartner也有定义,称是指IT服务管理的相关人员和管理流程,其目的是向用户交付具有成本和质量要求的服务。这样可能比较容易理解,也有一定的代表性,但是我总觉得离我们对IT运维的定义还有很大差距。看看我们国内的一些白皮书是怎么定义的,IT运维是指以组织内部和外部的用户需求为导向,通过一系列的流程、技术、方法来保证提供的IT服务和产品使用户满足一定的要求。我觉得这个定义比较符合我们国内IT运维的工作内容和范围,是比较准确的描述。总的来说,我觉得我们现在运维的核心价值体现在哪里?我们是四个方面:质量、成本、效率和安全,这是我们IT运维核心价值的体现。平时的运维是干什么的?做很多繁琐的事情,比如打标签、系统配置、系统更改。这些工作很繁琐,我们的压力也很大。你有时经常在半夜做出改变。做的时候,每个时间点都卡的很精准。在那个时间点之后,你的压力可能会突然放松。做运维的都应该有经验。运维加班也不少。刚入行的时候,别人过中秋,我在机房贴标签。这件事至今记忆犹新。现在还是一样。我的运维生涯感觉周六周日加班一直很正常。这也是很多业内同仁的常态。做运维的时候难免会遇到很多系统故障。这也可以挑战我们的运维解决方案能力。在重要的场景下,连续的故障也是提升我们体验值的一个非常重要的阶段。只有不断解决故障,才能提高更多的水平。所以我一直觉得,我们做IT运维,跟社会上的消防员很像。消防员救火,IT运维救IT火。本质是一样的。作为运维,我们也会有各种背黑锅的。当你解决不了问题,发现一个未知的问题时,你该怎么办?你没有证据。这个时候,运维对于企业的价值就在于你发现问题,解决问题。当你无法解决问题时,你可能真的会受到指责。无论是同事还是同行,都必须走过成长之路。经历多少委屈,才能成就多少。另外,作为运维,我们处于7×24小时×365天的工作状态。2、封闭系统架构VS开源系统架构其实运维圈子里有传统运维,也有互联网运维。它们有很多共同点,就像我们刚才提到的方面一样,但也有很多不同点。维护和互联网运维的区别还是挺大的。先说说传统架构和开源架构这两种运维架构的区别。通常,我们所说的传统架构就是商业封闭架构。这种业务架构被金融行业、电信行业、能源交通行业的许多国家企事业单位使用,包括一些传统企业。通常以IOE产品软硬件为核心。主要元素的体系结构。这种架构的特点是垂直扩展能力强,可以增加CPU、内存、扩展柜等,以此来提高架构的处理能力和稳定性。典型的架构,比如IBM的power系列,都会实现这些HA架构,只能是双机,然后采用多种冗余方式连接后端存储。这是一个典型的IOE架构。这种IOE架构在十多年前就存在了很长时间,20多年前。这个架构对于我们国家的业务生产和IT运行仍然提供了非常重要的支撑能力。在那个年代,它还是很有价值,很有意义的。毕竟,实际上促进了我们IT信息化的建设。随着互联网行业的发展,这种IOE架构已经不适合很多互联网公司了。互联网公司都会使用这种开源的系统架构。通常,这种相对便宜的PC服务器是基于一些开源应用程序和程序的。构建他们的系统架构,其典型特征是水平扩展。什么是横向扩展?比如一台机器不够,不是说给机器加CPU和内存,而是一台机器不够加两台,两台不够加四台,四台不够加八台,还有一百还不够,就是单机扩展的系统架构。在这种架构下,用户通过互联网访问,然后通过一些CDN策略,通过一些加载策略,通过一些应用集群访问一些后端数据库或者图片文件。这是一个典型的开源互联网。系统架构。3、传统运维VS互联网运维的探索与分析不同的运维体系基于不同的架构特点。它们有很多不同点,可以概括为:架构的不同点、工作内容的不同点、面向对象的不同点、运维人员的不同点、系统概念的不同点、知识体系的不同点。不同之处。刚才我们基本上讲了架构的区别,一个是IOE架构,一个是开源架构。IOE的架构多采用商业闭源软硬件构建,形成解决方案。纵向扩张很强,横向扩张相对较弱。围绕这个结构,当年很多两地三中心的建设,包括很多金融业的两地三中心也是基于这种IOE结构。这种方式是一种比较重的运维模式,也是一种比较集中的运维管理模式,有完善的保护机制。毕竟从价值和稳定性上来说,生意还是很不错的。互联网架构中使用的X86服务器和一些白盒产品具有明显的DIY能力特征。当然,这个架构,我们刚才说了,横向扩展强,纵向扩展弱。在不同的行业中,使用相同的技术理念来构建其内部架构,基本上类似于技术体系技术栈。在这种技术架构下,他们更追求分布式和负载集群的概念。这种方式往往是一种模块化,非常典型的就是这种轻量级。机器坏了也没关系。两个都没有问题,就是典型的运维方式。这种方式就是开源社区包括这种X86服务器,他们的迭代还是很快的。这个产品的迭代速度比IOE架构迭代要快很多,这也是开源运维必须面对的典型特征。工作内容也有很大差异。传统运维往往有很多自建机房,自己独立维护机房的风、火、水、电。他们的业务背景知识逻辑性强,而且非常复杂。商业场景在里面。但是对于这种开源的互联网公司来说,他们往往不一定有自己的机房,但是很多大公司,龙头企业都会自建机房,也有很多机房是租给别人的,或者由他人操作和维护。LAMP/LNMP技术堆栈来完成这项工作。业务对象和面向对象之间也有很多区别。很多传统的运维对象更多的是自己的用户,自己的业务,偏重于业务运维。他们对这类业务的控制力和敏感度比较高。对于基于互联网的运维方式,往往侧重于技术产品的运维,往往侧重于toC业务,网友较多。该场景下,用户对象更加复杂,对象市场多变,对未来技术的需求也多种多样。对象和需求是海量的、不可控的,传统运维和互联网运维有很大的面向对象的区别在里面。在系统理念上,传统运维与互联网运维存在诸多差异。在传统的运维中,他们有很多运营指标,无论是KPI还是OKR。他们的指标往往有很多社会效益评价指标。他们最注重的是统一的发展思路,这在很大程度上也体现在他们统一的管理文化和流程文化上。对于互联网,他们更追求速度和变化。他们更注重追求经济利益至上,以目标为导向,在这种文化中更加开放。这种文化体系与传统企业有很大的不同。还有就是知识体系的差异。首先这张图引用自《运维知识体系》的赵班长(赵顺东)。这个知识体系总结的很好。你可以去他的官网了解一下。当然,赵班长也是我的好朋友,我还是很佩服他的知识体系。总结的很好。当然,这里我就不细说了。你可以理解它。传统运维的知识体系可能包括围绕传统产品、传统硬件、传统知识构建的一些知识体系。4、IT运维发展的一些趋势说到知识体系,还有一点。不知道你有没有注意到。事实上,最右边有一个云计算。我们现在用的任何技术,很多东西都可以靠云计算来解决,都有相应的产品和解决方案来解决。也就是说,其实我们后面会讲到,由于云计算这个新技术,新革命,我们的运维给我们带来了新的变化。我们的运维有一定的影响。第一个趋势是从IOE到开源X86。其实去IOE也有一段时间了。我为什么去IOE?2008年,我对全网印象深刻。那时,安全已经逐渐上升到国家层面。此外,中国本土环境也在快速发展。国产化需求和自主研发能力越来越强。这对IOE也很重要。存在一个强大的内部基因。另外,也考虑到无论是国家层面还是企业层面,各个行业都希望能够灵活控制结构能力,这也是这个行业本土化的需求,这也是去IOE的第二个原因.第三,全球开源技术的概念和互联网的蓬勃发展对IOE产生了很大的影响。因为IOE的封闭系统或闭源系统往往不利于产业或技术的蓬勃发展。当然,去IOE,无论是设备、产品,还是学习成本,还是有很高的门槛和成本的。这是互联网行业和开源??行业所不能接受的。所以,去IOE是目前真正不可逆转的趋势。长期来看,IOE架构和非IOE架构会长期并存,因为技术体系的升级不是一两天就能解决的,尤其是一些核心数据库、核心应用、核心系统,这些都经常被部署在IOE。框架下。第二个趋势是运维自动化和智能化。这个也提了好几年了。接触实践大概有五六年了,到现在还在提。事实上,到目前为止,很多行业还在迭代和优化运维自动化和智能化的成果。确实可以给我们的运维带来很多好处和优势。第三个趋势是两国IT运营。在从传统向互联网化、移动化转型的过程中,一方面为了保证现有业务的运行,另一方面为了适应这种新的IT技术的变化,两个IT运维模型已经出现。目前很多行业都在提到“双态运维”,一个是稳态,一个是敏感态,一个追求稳定的业务发展,一个追求迭代、快速、变化的需求,所以就有了这两种运维方式。第四个趋势是研发与运营的融合,即DevOps。DevOps在过去两三年已经深入到千家万户。其核心概念包括精益管理、敏捷等理论,通过持续交付、持续集成工具链,以及一些轻量级的IT服务管理。基于这些理念和工具,我们共同打造了从研发到运营的全流程体系。其实更多的是为了解决我们之前从开发到部署再到后期运维操作的分离的、烟囱状的状态。IT运营更高效,迭代更快,反馈更快,更好地满足内部业务需求和用户需求。这也是研发运营一体化理念的价值所在。第五个趋势是云计算、混合云、融合云。基于底层虚拟化技术构建的云平台,包括近一两年发展起来的融合云或混合云,整合云资源,提供更大的平台,支持大数据、AI智能、运维,包括其他所有各行各业的物联网场景也是一大趋势。这对运维来说既是挑战也是机遇。为什么?因为这个行业永远在变,技术永远在变,只要顺应大势而变,那么我们就站在了时代的潮流上。如果我们还保留着以前的运维理念,不上云、不碰云,那你肯定会被淘汰,因为十年前我部署一个数据库很难,各种配置和调用可以在几分钟内完成。一个RDS开放、优化、集群,在效率和稳定性上分分钟达到我们传统运维的水平,所以这是我们运维要面对的大趋势。基于此,近一两年云原生的概念开始流行起来。实际上,它是在更深更广的层面上整合现有云架构体系的技术栈,利用DevOps、微服务、敏捷的理念,利用类似中台或开放的理念来构建和重塑技术体系能够更好地支撑新业务的快速迭代发展。事实上,在DevOps理念的融合上有很多相似之处。第六个趋势是数字化。这也是近两年中国的热门话题。事实上,也是如此。过去我们搭建了各种信息系统,搭建了很多平台,但是往往搭建了很多壁垒,导致我们很多信息系统不连贯,业务碎片化。组织也很分散。数字化要解决的问题是通过底层数据加算法构建新的服务来打通我们的业务,重塑我们的组织架构,让我们未来的IT价值体系与业务充分融合。这就是数字化要解决的问题。问题还在于是什么带来了它们的价值。说白了,就是优化它的资源配置,优化我们的流程体系,让我们更好的去面对未来的智能社会。这就是数字化的核心价值所在。总的来说,说了这么多趋势,当然还有一些,大体相同。以前是用硬件,现在是软件自动定义;以前用服务器,现在用云。我们现在用的是云,未来可能更多的是混合云,集成云;以前是技术运维,现在是搞技术运维集成;还有一个很重要的是,不管我们现在做什么,现在网络空间安全已经上升到国家层面了。也为企业提供了最高点,这个网络安全是IT的标配。5、运维人员的一些辅助技能从四个方面讲了,然后讲了运维同仁在面对新趋势时需要掌握的常用技能,以应对未来的变化,武装自己。其实怎么说呢,这些知识就是我们的一些技术知识,只有打下基本功,才能更好的面对未来。比如很多运维的人并不一定只会做这些项目管理,但是我觉得当你达到一定的运维水平的时候,必然会接触到各种项目管理的知识。这对提高我们的运维管理能力、项目管理能力、IT信息化能力知识体系建设具有重要意义。除此之外,还有运维两个重要方面。一是如何构建运维流程?二是如何构建运维的网络安全。这是作为运维进入行业后需要持续构建的两个方面。当然,这只是对ITIL的介绍。现在过分关注ITIL肯定不好,因为这种业务流程体系会阻碍IT的敏捷性。现在它在DevOps上更加轻量和敏捷。工艺系统。基于将安全融入到这个过程和过程中,有必要根据国家网络安全法律和指南,构建一个可靠、安全的运维环境。这需要同时具备多种技能。举个例子,怎么开运维会议,是不是应该给会议定一个主题,围绕一个主题来讨论问题,才不会误入歧途。主题确定之后,以后有什么目标要做,怎么做,大家一定要有个回顾,这些还是很有意义的。此外,运维必须遵循一些MECE原则。我觉得这对于运维的思想也是很重要的。运维思维往往存在一些相互重叠、交叉的问题,这使得人们有时在解决问题、构建系统架构、或者处理故障的问题时,还是需要一种相对清晰、独立的思维方式,能够彻底重构,有利于运维工作,更有利于运维事业的发展。还有墨菲定律,很神奇。作为运维团队,我们总是担心某种故障,但越是担心,不管概率有多大,总会发生。太神奇了。我觉得有必要让运维同仁了解一些。还有一些思维方式,比如思维帽和Smart原则。另外,运维也经常做一些采购或者业务方面的工作。与人打交道,观察他们的言行举止是不可避免的。这是根据人的言行举止来判断人将要做什么,内心在想什么。基于此,我们可以更好地与人交流。相互打交道也是运维的一个重要方面。对于运维,我们还需要了解一些架构体系,比如单体架构和微服务架构体系。我们在设计这种运维的时候,参与了架构设计的一个重要方面。作为运维人员,我们要成长。其实我们有一个基本的概念希望大家都能用上,那就是手和脑。往往有很多运维同仁,爱实践,但不爱思考,不爱总结。有人说我做过事,但不愿汇总数据。其实我觉得这个对我们做的不好不好,因为如果要做深层次的运维或者做一个架构层面的,比如做更深层次的运维,就必须要手脑并用,并且努力把一个东西做的很完美,总结的很完美,然后以此为基础推导出你的一些价值和你运维的经验。这对于运维来说可能非常重要。希望运维的同仁可以试用一下。多做,多思考,多总结。说了那么多杂七杂八的,其实运维涉及的东西还是很多的,但是不管是DevOps、敏捷精益、云计算,还是双态运维、数字化、智能化……这些趋势和理论有一个共同点:都是对现有和以前的IT系统的整合和优化,所有的变化都是一致的,都是对人、事、物、流程的重组和优化。资源要素的不同组合会产生不同的转型升级效果,最终是为组织和业务构建新的生产力和生产关系。按照人、事、物、流程的层次划分,IT运维通常涉及以下管理内容:以上四个层次,人是主体,通过工具的使用和管理,从事生产活动,并在过程中总结过程、策略和方法,以行促知,以知促行。人类社会必须以人为主体,因此,运维管理中最重要的就是对人的管理。如果人是安全的,那么手术就是安全的。什么样的人才,什么样的组织,就会有什么样的运作。在东方文化中,我们通常称之为人事管理,而在西方管理中,则称之为人力资源管理,将人视为资源要素。这是否适合中文本地化值得商榷。二十一世纪,以人为本才是王道。保人,必须体现人文管理、人文关怀,而不是一堆冰冷的KPI、OKR式的管理。人力资源管理的方式或许适合机械工业时代,但在21世纪,却是一个以人为本、人机协作、天人合一的新时代。要真正把人当人来对待,综合评价人的素质,而不仅仅是把人作为一种资源要素。因此,德能秦低性能的评价更适合中国,更适合中国的运维管理。最后,再说一个更宏观、更哲学的事情。其实不管你是做运维还是在各行各业,很多道理都是相通的。无论是技术、业务还是产品,其实都是一样的。我们要知道一个产品工具,也一定要根据所知道的去实践,以知促行,同时以行促知。只有做到知行合一的完美结合,才能让我们的运维工作变得更好、更完善。人生的路更长,这就是我想说的。这张图是混元、三教九流的图,它还有这样一个原则:触类旁通、融会贯通。左边是孔子像,右边是道家老子像,中间是佛像。是一幅三教九流合一的图景。这也给了我们很多启发。一IP一叶一菩提,万物一体,让我们运维走得更远更远,祝大家生活更美好。
