专访程先锋:APM火爆折射出运维管理技术顾问之痛;MongoDB中文社区创始人,联合创办北京研发中心作为AdMaster顶级布道者,担任积木科技副总裁,拥有悉尼大学硕士学位和哈尔滨工业大学学士学位技术。“我跨的领域多了一点,但大部分时间都在做技术管理工作。”与咸丰相识已久。记得我在AdMaster的时候有一次关于敏捷的独家专访。当时他总是强调国内管理上的差距,很少有非常资深的人在这方面做工程。或许是因为长期的沉淀和理解,咸丰认为技术管理沟通才是核心价值,能够快速提升初级程序员的成长。同理,先锋一直在AdMaster负责技术管理、团队建设和员工培训。后来AdMaster离开后,继续在积木盒子和现在的蓝海电信从事技术管理工作。今年是APM的元年。您认为APM在中国突然进入人们视野并引起业界关注的主要原因是什么?管理方面会有什么变化?程咸丰:首先说说什么是APM。现在每个人都在谈论应用程序性能管理。其实国内对此的认识还很肤浅。APM在中国被认为是元年,但是美国很多互联网公司在2008年就开始使用了,比如IBM、戴尔、惠普等大公司都有自己的APM解决方案。事实上,这并不是一个新概念。为什么现在才在中国被认可?我认为很大的原因是中国软件的生命周期短。国外一个软件可能有五年、十年、十五年的生命周期,业务系统也很稳定。但是中国的大多数软件都没有那么长。在这种情况下,采用软件即服务的动机显然不足。比如你买了一辆汽车,打算开30年,你肯定会精心保养。但是车子才开一年,可能保养不好,也可能保养不好。APM就像汽车领域的高效维护。当系统出现问题时,能够快速发现并报警。经常有人问一个问题,APM和监控一样吗?实际上,APM的性质与监控不同。监控可以发现问题,但不能诊断问题,但在一定程度上确实起到了监控的作用。就像一个温度计,知道你的体温是39度,你发烧了,却分不清你的问题出在哪里。我们可以把APM看成是一台CT机,它知道你的哪一部分出了问题,并且能够清晰定位。再看运维,目前Operation是非常欠缺的。很多IT企业往往重研发而轻运维,主要是因为系统生命周期很短,运维投入不够。国外的情况就像坐飞机一样。可正常运行十年以上。它非常注重安全和稳定,所以特别用心保养,每年的费用也很高。国内大企业也是如此。生产系统运行时间长。事实上,国内金融、电信、能源等客户很早就应用了APM。所以今年APM被业界接受,是互联网化的结果,并不是一个很早的概念。为什么APM越来越重要?这其实要从IT系统运维面临的几个困难说起:首先,系统越来越复杂,越来越分布式。第二,遗留系统很多,5年、10年前这些系统的正常运行就需要照顾,运维压力很大。第三,业务总是动态变化的。众所周知,IT企业的运维每天都在应对不同的变化。传统运维的职责很多。在如此复杂的情况下,就会导致被拖入泥潭而死,无法脱身去做一些更有价值的事情。运维在美国称为ITOperationAnalysis,也称为ITOA(ITOperationsSystemAnalysis),它以大数据为基础,对IT配置、性能、数据泄露、遵守。从分析的角度理解非常好,可以解决大量的问题。问题是如果你没有APM,你分析需要的数据就不会来。数据分析基本上来自传统意义上的三个方面:基于网络的数据、基于日志的数据、基于APM的数据。从广义上来说,这些方面都是APM行业,但是如果从狭义上理解这种基于探针(Agent)技术的APM,它提供的数据几乎是网络和日志无法比拟的。***,先说日志吧。如果启用的日志很多,你会淹没在大量的日志事件和噪音中,提取难度很大。但是如果开的级别很低,你会发现根本定位不到问题。其实日志的强度是很难控制的,也是事后分析的一种方式,延迟比较突出和明显。第二,虽然网络有全量数据,但ITOA运行在比较重要的真实网络结构图中,网络故障后最重要的诊断指标是MTTR(平均恢复时间)。但是,就平均修复时间而言,网络故障帮助不大。它们只能位于机器或主机级别。事实上,对于诊断问题的帮助,从目前的复杂程度来看,还不是很清楚。因此,现在需要升级到应用层定位来解决问题。根据ITOA的概念,APM列出了包括可行性分析和性能在内的所有维度,这是所有ITOA组件中最难的。可用性分析的监控可以自己完成,但它是关于性能的实现。有第三方机构在美国进行了深入调查,大家一致认为Performance是ITOA中最有技术含量的。所以,当很难实现的时候,我觉得应该找合作伙伴,就像硬件中最难的芯片,IT公司很少独立开发芯片,大家合作,节省开发成本和人力投入。很多时候,大家需要改变的是思维,从而获得IT运营的整体价值,而不是从某个纬度来节省成本,而应该从更长远的角度去分析它是否具有投资价值。根据您多年的管理经验,您认为一个优秀的团队应该具备哪些能力和特点?程先锋:首先,我认为作为一家科技公司,技术能力无疑是公司最重要的能力。我们在应用性能管理方面与其他公司完全不同的是,业务和它的技术是完全融合的,所以技术是我们的核心业务。说到技术能力,我们更引以为豪的是大型商业系统和核心系统在短时间内的稳定运行。我们不会用一些终端客户的数据来代替我们在核心系统中的数据。同时,我们会主动要求客户做非常严格的POC测试,会帮他制定测试标准和建议,客户也会公开公正地进行比较。因此,我们对自己的技术表现也很有信心。另一个是服务客户的能力。为什么国外的APM在国内难用?网络的原因一方面,更重要的是我觉得是一种服务客户,创造价值的能力。我们有一个非常专业的顾问团队,可以非常快速地帮助客户解决他们的问题。从长远来看,我希望这是一个非常自省并且有内生动力的团队。包括我们对APM市场整体的认识,预见能力也是很重要的。虽然今年是APM在中国的元年,但我认为我们团队对APM的发展趋势有着非常深刻的理解。OneAPM没有跟风。毕竟我们在之前的BlueWare中为企业做了大量的应用性能管理,积累了多年的经验。所以我们对这个行业有很深的行业理解,这也是我们的核心能力。那么在今天的云计算背景下,运维和运营模式会发生哪些变化呢?程咸丰:首先,运营是两个方面的事情。对于OneAPM来说,首先是SaaS模式的服务,对于我们来说,是传统APM云化的一种体现。另一方面,对于我们的客户来说,他们也面临着很多基于云的东西。因此,未来会有越来越多的企业组织将传统业务上云。云化对于APM产品来说是一个非常大的机会,这也是2008年美国APM技术发展的一个重要原因。NewRelic和AppDynamics的发展都是基于云计算的大趋势。原因是客户在使用云之后,摒弃了很多传统的运维习惯。这时,他们可以更好地适应现代工具和新业务。云简化了运维,加强了弹性和管理。这些都是APM特别适合的地方。包括云安全策略和云给大家带来的整体服务理念,APM的思想自然是和云结合在一起的。包括现在的移动互联网都是APM特别适合的场景。我们也和国内几乎所有的云厂商都有这种合作,相当于我们的产品和他们的客户紧密结合,为他们的客户创造了非常大的增值效应。对于运维,首先是思想上要有非常大的转变。近日,亚马逊在美国召开Reinvent大会,宣布每年部署5000万次。虽然很多人不相信这个数字,但应该有500万次。如果是500万部署,远超很多人的想象,对运维人员来说是一个巨大的挑战。很多运维人员一年也做不了五百万的部署。这个时候问题出在哪里?事实上,亚马逊的运维是通过技术团队来完成的,只提供一些工具,自动化程度极高。如果大家真的都用上了云,那么运维团队的角色和思维方式都会发生这样的转变。我认为亚马逊是一个典型的例子。我们国内的运维人员正在做例行在线和故障诊断。国外运维人员不做这些事。至少很多先进公司的运维人员不会做这些事情。这是一个趋势。要求你会开发工具,对架构有很好的设计。所以这对运维人员的要求很高,也是需要运维人员考虑的。现在大家讨论的话题很多,比如DevOps、Operation。其实如果你把这些题目做好了,你会发现你还是回到传统的运维做这些事情。有人在新的运维模式中提出了这样一种观点,称之为ETA(Environment,Tools,Automation=环境工具自动化)。运维肯定会有这样的工作职责和思维转变。对他们来说,他们本质上将拥抱新一代技术。事实上,运维技术这几年变化非常快。在过去的几年里,我们很少听说大规模的自动化运维。现在自动化程度在不断提高,对绩效管理的要求也在不断提高。这对于运维人员来说其实是一个挑战,也是一个机会。像惠普和戴尔,都是做监控和管理的,但是主要是面向大企业的。程先锋:是的,但是从Gartner的报告来看,只针对大企业是注定失败的。从互联网市场的角度来看,有几个简单的点,***他们做不出对用户友好的成品。二是他们的部署和交付方式完全没有能力实现互联网。第三,他们对互联网的适应速度太慢。他们在这个市场的份额必须逐渐减少,然后逐渐失去市场份额。在移动互联网普及的今天,创业团队如雨后春笋般涌现。您认为会有新的竞争者进入APM领域吗?程咸丰:首先,APM本身是一个小众市场,玩家并不多。即使在美国这样的成熟市场,它的参与者也是最大的。另外,APM技术的门槛比较高,需要经过长时间的实践验证。就算你开发出来,很多人也不会相信你能取得好的效果。毕竟需要考虑成长和融合,对后进玩家不利的因素很多。但是APM市场巨大,我们还是希望有更多的竞争者进入这个市场。现在最火的词就是云计算和大数据。两者都离不开性能。我们在性能上的改进是一项本质的改进。当性能翻倍时,许多原本不可能的事情都变成了可能。比如,有时候经常会出现复杂的广告算法,无法在规定的时间内计算出来。但性能提升后,可以完成计算。表面上看是靠性能,实际上对业务的提升是极其巨大的。所以我觉得这个市场的前景还是很广阔的。我们希望有更多的玩家进入这个市场,脚踏实地地为客户服务。毕竟还处于起步阶段,需要市场共同培育和成熟这样一个过程。目前,随着PaaS平台的发展,APM将面临巨大的市场。您认为这会对业务产生什么影响?程咸丰:我在国内应该比较早接触到PaaS。当时国内的PaaS环境还不成熟。而且国内的云计算厂商也没有提供相应的PaaS平台,所以目前业界对国产PaaS平台持比较悲观的看法。至少PaaS在国内两三年内不会有大动作。如果PaaS得到普及,可以为APM产品带来巨大的价值。尤其是Heroku和NewRelic的合作,在国外是非常典型的强强联合,在国内缺少这样的平台。当然,未来中国也会有这样的平台,我们也非常愿意尝试和他们深度合作。PaaS对APM产品肯定有巨大的拉动作用,但是我们在中国整体上还处于IaaS阶段。PaaS离市场战略还有一点距离。
