当前位置: 首页 > 科技观察

IaaS和DevOps成为IT运维管理的新常态

时间:2023-03-12 05:21:32 科技观察

在过去的十年间,云计算从一个概念迅速发展成为一种被普遍接受并广泛应用于实际生产中的新型IT基础设施。尤其是在公有云IaaS领域,以AWS、阿里云为代表的厂商成绩斐然。与此同时,几乎与云计算同步发展的DevOps理念,也随着云计算的普及逐渐被人们所接受,成为主流的软件生产方式。  根据PuppetLabs2014年度调查报告,超过一半的受访者已经在实践DevOps。并且调查报告还显示,采用DevOps软件生产方式是企业打造高效IT服务能力的利器,高效的IT服务能力可以将软件和服务部署频率提高30倍,故障率降低50%%。因此,我们认为企业IT领域正处于一个重要的变革之中,即:IaaS和DevOps成为企业IT领域的新常态。随着IaaS、DevOps成为新常态,企业IT系统的运维管理体系也需要进行重大变革,以适应新常态的需求。  1。新常态下IT运维管理的变革  IT系统进入企业已有数十年的发展历史。在这个过程中,IT运维管理逐渐走向成熟,形成了以ITIL为代表的完备的运维管理体系。ITIL以传统IT服务为管理目标,提出了从系统设计、实施到运维的一整套流程。该体系强调流程和规范,主要目标是对内输出服务。然而,如今的企业IT服务不再只是内部业务支撑系统,而是需要直接面向终端用户,快速响应市场变化,已经成为企业的核心竞争力之一。这些新情况对以ITIL为核心的传统运维管理体系提出了变革的迫切需求。在IaaS和DevOps成为新常态之后,这种变革需求变得更加直接和具体。  变化一:IaaS成为新常态后,企业运维管理的重心转移到应用运维上。这种职责划分甚至可以直接映射到很多内部运维团队的组织架构上。很多公司的运维团队会分为以基础运维为主的基础运维团队、以应用运维为主的应用运维团队,有的公司还会有运维维护开发支持以上两个团队的团队。但在IaaS成为新常态后,企业的基础设施变成了IaaS平台,其基础运维工作完全由IaaS平台提供商承担。终端企业用户只需要关注应用运维层面的工作。这会导致很多以基础运维为核心和出发点的工具(比如传统的ITOM管理软件)及其实践方法不再适用。当然,采用IaaS后,整个运维管理团队必须要有自己的云平台战略,并提供相应的运维管理工具,才能充分发挥IaaS平台的优势,做好运维的核心工作。应用运维。  变化二:DevOps成为新常态后,企业的运维管理目标转变为持续交付  在传统的软件生产模式中,Dev和Ops团队相对独立,甚至形成了鸿沟.这种情况非常不利于IT系统价值向终端用户的交付,往往会导致整个运维管理流程只关注控制变更,而忽略了向终端用户交付的价值需求。DevOps强调Dev和Ops的融合,将交付价值最大化作为最根本的追求。这种思路下的一个重要原则就是持续交付和快速迭代。为了实施这一原则,自助服务IT、自动化一切和持续部署等最佳实践被广泛采用。同时,IaaS平台提供的“可编程”基础架构使得这些最佳实践的实施变得更加容易,极大地促进了DevOps软件生产方式的实施。  其次,Iaas和DevOps成为新常态下企业IT运维管理面临的问题  IaaS和DevOps成为新常态后,企业的IT运维管理也将面临一些新问题。具体概括为以下几个方面。问题一:IaaS成为新常态后,如何统一管理不同云平台的资源  企业在决定采用云平台作为IT基础设施时,需要面对统一管理的问题不同类型的基础设施。一部分基础设施是公有云平台资源,一部分可能来自遗留的内部虚拟环境或物理机。即使没有遗留的IT基础设施,企业也经常选择多个公共云平台以避免被锁定在一个供应商。此外,由于业务安全或合规性要求,企业很可能采用混合云架构。下图来自RightScale2015年关于企业采用云计算平台现状的调查报告,调查结果也支持了这一观点。  当混合云成为普遍选择,企业IT资源的统一管理将成为新的挑战。例如,企业经常需要面对以下问题:  如何统一管理公有云主机、私有云主机、物理机?  如何从应用的角度管理基础设施?  如何集成云端API,实现自动伸缩?  新的IT运维管理系统只有解决了上述基本问题,才能实现对不同来源基础设施的标准化、无差别管理,同时充分发挥IaaS平台带来的弹性基础设施优势。  问题2:DevOps成为新常态后,如何真正实现持续部署和交付  前面提到,IT系统的交付周期越来越短。而且,在持续交付的过程中,还需要保证服务的高可用和性能的高稳定性。但是,整个IT系统的持续部署和交付需要一个漫长的过程来保证。比如下图就是一个典型的从代码到最终服务的流程。  在这个过程中,阻碍整个持续交付流程顺利进行的常见问题有:  如何建立统一的Artifact仓库?  如何保证测试环境和生产环境的一致性?  ◆部署后如何实现快速反馈?  企业在实施IT持续交付过程中,往往未能解决上述常见问题,导致最终持续交付过程流于形式,未能实现支持业务创新的目标。#p#  问题三:IT服务能力成为企业核心竞争力后,如何高效运维管理日益庞大的IT系统  随着互联网+浪潮的逐步推进,企业所承载的业务IT系统将变得越来越重要。这也意味着需要更高效的运维方式来管理越来越庞大的IT系统,尤其是需要管理越来越多的虚拟机。同样从RightScale2015的报告来看,大部分企业的虚拟机数量已经超过50台(如下图)。  一般而言,超过50台虚拟机的规模意味着传统的人工运维管理难以保证效率和质量。这时,企业在日常运维管理中会遇到以下常见问题:  如何同时给1000台虚拟机打补丁?  如何实现端到端的监控?  如何实现自动故障修复?  为解决企业IT系统规模增长带来的运维挑战,自动化成为现代运维管理系统的普遍选择。这包括自动化构建、自动化测试、自动化部署、自动化修复等一系列最佳实践。  3。新常态下IT运维管理解决方案适用。要克服这些问题,除了需要新的思路和新的组织架构外,我们还期待有一个新的统一的云管理平台(CloudManagementPlatform,CMP)。该平台需要具备以下能力:  ◆管理平台能够对不同来源的IT基础设施进行统一管理,解决企业IT基础设施碎片化的问题。同时,需要与主流IaaS平台深度对接,响应企业业务对新型IaaS的需求。  ◆管理平台需要构建以应用为核心的整个管理体系,而不是以IT基础设施管理为核心。无论是IT资源的组织,服务监控告警的展示,还是日常各种运维的运行部署,都需要从应用的角度来设计。  ◆管理平台需要提供一站式的全栈工具链集成能力,开发、测试、运维人员可以在上面协同管理一个应用。而且,这个平台还需要能够为应用构建一个完善的反馈系统(需要全面的自动化测试和监控),并基于这个反馈系统来实现整个工具链的自动化。  对于企业用户来说,选择统一的云管理平台也需要充分考虑以上因素。在具体实施上,企业可以有以下可能的途径:  ◆基于IaaS平台控制台及相关管理服务。这种方式是企业用户最容易上手的方式,尤其是在企业IaaS提供商非常单一的情况下,可以快速取得初步成果。但这种做法最大的风险是会被某个IaaS提供商锁定(lock-in)。您越深入地使用云提供商的托管服务,您就会越深地陷入其中。  ◆完全基于开源软件自建。自建统一的云管理平台对很多企业用户来说非常有吸引力,尤其是在开源软件丰富的今天。如果选择自建云管理平台(尤其是直接使用开源软件),企业用户要非常注意传统平台上经常出现的“烟囱效应”,即不同应用场景下使用的工具完全不同不同的,相互间的信息打不通。比如运维管理平台最基础的CMDB层,应该在监控、运维、代码部署等很多运维场景中复用,始终保持数据一致性,减轻运维负担。维护。但是,常见的开源软件基本上都是从单一场景出发,并没有提供集成的解决方案,因此需要用户自己完成相关的集成工作。此外,企业还必须对自建平台的成本和收益进行评估,以便有的放矢。  ◆购买第三方独立供应商软件。目前市场上存在的第三方云管理平台大致可以分为两类。一类是传统运维管理平台(包括CA、BMC、IBM等)演化而来的产品。管理、成本管理、审计管理等)。另一类是以RightScale为代表的新型云管理平台。该类产品更侧重于云应用管理(包括应用监控、运维、部署等),非常适合公司内部云应用的开发、测试、应用运维人员。  对于企业级用户来说,云管理层将是决定公司云战略的一个非常必要的组成部分。无论企业选择哪种方式实施,都需要在规划阶段仔细考虑,使其成为企业云战略的一部分。只有这样,才能在未来更好地实施云战略,实现企业上云的初衷:利用IT能力加速企业业务创新。  作者简介  许桂林:目前负责公司在FIT2CLOUD的技术布道和生态合作。在此之前,他曾就职于意法半导体、欧特克和阿里云。许桂林热衷于云计算(尤其是公有云IaaS平台)。拥有多年AWS生产环境工作经验。是较早在国内分享AWS实战经验的作者之一。