嘉宾介绍 志金 此为真名全名(编者注:虽然志这个姓比较少见)。 2006年至2011年,负责支付宝系统运维工作。是阿里集团及国内第一批从事运维自动化系统体系建设者。 2011-2014年在中国建设银行总行负责运维工具和私有云建设,利用互联网经验和开源软件做一些二次开发。 现任杭州云集科技创始人,致力于将运维自动化经验和DevOps思想做成产品。 主题介绍 现在“运维自动化”、“云计算”、“DevOps”很火,解释也很多,但很多人的理解是狭隘的,甚至是错误的。本期分享嘉宾志进将分享他在大型互联网公司和大型传统行业的工作经历,并从整个数据中心的运维管理体系建设入手,分享他从中总结出的一些观点近几年的个人实践。 分享备忘录 我在支付宝的时候,正好是支付宝快速发展的时期。业务每年翻两番。短短3年时间,从100台机器发展到几万台机器。最早的运维自动化是被业务逼着被动地发现和解决问题的过程。这种经历对于大多数业务快速增长的互联网公司来说是普遍的,解决方案也大同小异。前段时间大众点评运维总结得很好。 互联网的运维自动化,我总结为:“自下而上,野蛮生长”,见效快,但很难有资源停下来思考,相当于华山的剑宗。 来到建行后,有机会系统地阅读了ITIL、COBIT等老外的最佳实践,也阅读了很多IBM、HP、BMC的运维产品。客观的说,老外的方法论和做法都很好,虽然软件太复杂,实现起来难度大,相当于华山的七宗。 在网上用之前的实践经验验证后,有一天我突然抬头看着天空中的白云,恍然大悟,从此我剑气双修,打通了两脉任杜,在运维自动化方面取得了长足的进步。 以上纯属玩笑话。但是,我现在关注的重点主要是整个数据中心的运维管理系统的建设。下面也是我这几年实践出来的一些观点。可能离中小互联网公司有点远,会显得更务实。 现在“运维自动化”、“云计算”、“devops”很火,解释也很多,但很多人的理解是狭隘的,甚至是错误的。比如“运维自动化”这个词,已经被人们说坏了,但是大多数人理解的运维自动化,只能叫做“运维自动化”。再比如,木偶很受欢迎。很多人认为puppet是一种自动化工具。其实puppet的本质和精髓就是一个配置管理工具。 让我们谈谈云计算。云计算代表了一种全新的互联网思维技术路线。其核心思想是使用低成本、标准化的开放硬件和开源软件构建基础设施,通过自助服务和自动化实现基础设施资源的交付和运维管理。系统实现了系统处理能力的最大扩展,借助合适的应用架构弥补了基础软硬件的不足,满足了高可用性的要求。但是在云计算实施之后,基础设施的规模迅速扩大,我们可以发现运维的复杂度不仅没有降低反而增加了。 数据中心运维管理的定义 之前提过黑盒运维和白盒运维的一个观点。做运维很多年了,可能不知道运维的定义是什么。我们先来定义一下数据中心的运维管理!查看什么是操作和维护。 国际分析机构Garnter将数据中心的运维工作概括为“I&O(Infrastructure&Operation)”,即基础设施管理和运营管理两个领域。基础设施服务就是在上线之前如何“搭建基础设施”。运营就是上线后如何管理业务活动。 我觉得自动化是运维的一个方面。我对广义运维自动化的理解是建立系统和闭环。基础设施层面的闭环是连接运维与运维的一个小闭环。在运维管理领域,涉及到运维和开发的大闭环,即DevOps。最后的现象是完整的服务和完全的自动化。 IT运维与IT服务管理的区别在于,一个是被动的,一个是主动的。 说明:大规模私有云o和i的成本对比,本期唯一来源来自网络。它也是基于garnter报告。#p# 未来的数据中心能力 六次现代化是我们对未来数据中心能力的总结。 “六化”分别指: ◆虚拟化 ◆自动化 ◆集成 ◆标准化 ◆可视化 智能化全方位提升数据中心运营管理能力.可以认为这六种化合物的结合就是广义上的自动化。 运维场景三要素 但是,运维的业务场景是不能穷尽的。核心是如何构建这个闭环系统?这是大家最关心的。最重要的是要透过现象看本质。 运维三要素是什么?不是服务器、存储和网络,而是数据、流程和操作。这三者的排列组合可以完成所有的运维场景。而中间数据和流程才是核心,运算只是具体的实现手段。 运维自动化的三个阶段和闭环流程 本图为纯干货,反映了运维自动化的三个不同阶段。 右下角是初始阶段。工具、流程和数据非常耦合。您可以管理所有这些或忽略它们。一个小团队可以应付,但一旦团队扩大,就很难了。 左下角是中间阶段,流程驱动数据,再驱动运算,形成一个小闭环。 最上面是我们期待的最理想的架构,CMDB作为主控节点,通过数据控制所有流程和工具。 这就是我们最终实现的闭环过程。
