最近花了一个月的时间和企业一对一的运维交流,了解运维,想与您分享此信息。过去,我讲,大家听。这一次,他们说话,我倾听。同时说明了我的具体理解。20多家受访企业大致分布如下:互联网:40%,传统行业:24%,银行:24%,运营商12%。 其实这种方案看到很多传统企业/银行和运营商都非常关心互联网运维是如何进行的?根据最近的采访,我提出了运维的四力模型。从这个模型中,我们可以看到有哪些信息。 传统的运维维护是由两股力量产生的: 1.结构力 不管是互联网还是传统企业,都是建立在不可靠硬件x86(研发/测试运维)基础上的IT系统,这决定了两个思维的转变,第一个是不可靠需要应用技术架构配合实现高可用(需要Ops进入Dev进程);二是去中心化/分布式/面向应用/零维护底层系统需要更多的运维能力保障(需要Ops更强的能力)。我想这也是大家一直找我讲运维的主要原因。 可以说,互联网行业经历了一个迭代的发展过程,能力从0到1再到N。但是在传统行业和银行,这个过程不是迭代的,是渐进的。以前受IOE的影响,最近受国产化的影响,还受商业互联网的影响,传统的高可用硬件架构必须转向不可靠的x86架构。在系统工程中,结构决定功能。不靠谱的架构带来不靠谱的能力,需要全面的运维能力来弥补。运维能力如何?就是运维规范/平台能力/可视化运维能力/端到端监控能力/技术架构自适应运维能力……很多很多。 实际公司面试情况是,x86是必然趋势。不用说,互联网公司、银行/运营商也一样! 我把这个力理解为一种内力。 2.变革的力量 这种变革的力量是由商业形态的变化带来的,即商业的互联网化。业务互联网化后,用户需求不断反应在IT交付流程上。以往的IT交付流程,几周一个版本显然不能满足市场竞争的要求,迫使企业采用不断迭代、快速试错的机制。很多传统企业的人都在问,互联网提速的秘诀是什么?有大系统小运营(微服务)、服务发布、服务前向兼容、灰度发布、持续集成、持续部署、标准化运维等诸多手段。 或许你认为这种外力对自动化平台的能力提出了很高的要求。其实这只是一方面。另一个更重要的方面是能够监控和修复用户服务和系统状态的变化。一个经常变化的系统,偶尔会导致系统不稳定。如何保证运维的快速发现/快速定位/快速恢复。这是对监控系统的能力要求。传统的监控需要改变,但是这个监控系统需要业务系统的一些配合和支持。 通过实际采访发现,互联网发布频率明显高于传统行业。这就是内部业务和外部业务的区别,少则几倍,多则几十倍。它不同于传统企业。 这种转化力对运维有相应的要求。如何完成快速的服务交付和稳定的服务状态是一个挑战。这种挑战来自多方面。一是运维平台层面,比如运维平台能力不足;二是组织设置层面,如烟囱式/筒仓式企业组织结构,能力传递特别弱;第三,在企业文化层面,无论是流程驱动文化还是技术驱动文化,运维能力也不同。 商业互联网化是强大的外力。 基于上述内力+外力交互作用的结果,运维需要新的变革,才能走出运维难、无价值的境地,真正把更多的IT能力传递给企业。新的IT组织形式。 3.控制 我理解的运维组织分为两种类型,面对科学管理时代的组织职能化,每个单位负责特定的职能。在当今基于互联网的商业环境中,建立了一个以产品/业务为导向的跨职能组织,以响应敏捷和快速变化的用户需求。大多数传统企业仍然是功能性的组织结构,而互联网企业都是以产品为导向的分工。跨职能的组织结构具有很强的能力传递作用。 但是从运维的角度来说,我还是把运维归为一个类似公共服务能力的部门。这时候运维就必须建立一种控制,这是组织层面的,也是业务层面的。在组织层面,需要一个集中的运维管控组织,有利于能力的面向服务的封装,自下而上,如网络服务/数据库服务,乃至上层应用(系统或业务))运维等等等。另一种情况是,组织中没有应用运维角色,进一步弱化了面向业务的运维管控能力,运维成为资源服务的提供者。 严禁运维跟随研发,尤其是多部门或多产品的组织,每个部门/产品组都有一个运维团队。 我的观点对于一个基于互联网的企业来说,应用运维+集中运维的组织架构一定是组织建设的两个重要因素。 企业的实际情况是,我采访的大部分企业都难以建立真正的控制权。核心是他们没有建立面向业务的中心化运维组织架构。我给很多互联网公司的建议是,一定要朝着这样的架构迈进。我对传统企业的建议是建立一个面向业务的运维孵化机构,让他们按照新的模式运营,储备新的能力。 4.驱动力 由控制力形成的驱动力,在控制力之后,运维逐渐形成以业务为导向的运维理解。此时运维会对其运维体系进行整体规划,并纳入后续的阶段性实施计划中。运维的驱动力也来自多个方面。一是平台层面,二是规范层面,三是意识文化层面。 在平台层面,运维要建立标准化的自动化和数据平台来驱动DevOps。在规范层面,运维需要建立自己的运维规范,包括线上服务环境的运维规范、技术架构规范、自己的运维服务规范等。需要注意的是运维规范要从线下走向线上,从流程走向技术服务等等。在意识和文化层面,要和研发不断强调运维不是维护,运维不负责资源管理,运维可以主动承担更多,这将直接影响到IT组织的绩效。 很多企业的实际情况是管控力弱,导致驱动力弱。一个好的运维组织是一个高性能IT组织的保障。高性能IT组织有哪些优势?体现在puppetlabs2015年的DevOps报告中: 一句话,IT底层基础架构的变化,加上业务形态的变化,正在倒逼运维的转型。这时候就必须建立一个集中的运维组织,形成真正的运维驱动力。个人介绍:王金银,自称老王(不是隔壁那个)。2005年毕业,研发两年,2007年进入腾讯接触运维,经历服务器从百台到万台的运维过程,参与过YY、UC不同业务形态的运维,期间带来了前端运维、数据存储等运维、YY语音、游戏运维、运维研发等各种运维团队,全面了解运维.大力倡导互联网价值运维理念,即以用户为中心的价值由自动化平台交付,同时由数据细化和衡量。
