【北京记者谢海平】云计算的出现抹杀了一切基础工作,这让运维行业感到前所未有影响、威胁和变化。“智能运维、数字运维、No-Ops……”,一时间,各种创新运维模式不断涌现。这些只是概念吗?本次WOTA2017全球架构与运维峰会的分享嘉宾李志刚。搜狐畅游系统运维中心主任,近十年游戏行业技术管理经验。2008年加入畅游,现任系统运维中心主任、项目管理部经理,打造百万用户网络游戏技术运维平台。近年来致力于打造一流的游戏技术团队,全面负责运维工作的管理,包括IDC/网络/硬件规划管理、系统运维、数据库运维、应用运维等。维护、运维平台及工具开发等;完善标准化运维体系,确保运维质量;不断发展和探索运维自动化和各种创新方式,缩短运维响应时间,降低运维成本。:在构建自动化运维平台的过程中遇到了哪些挑战?它是如何解决的?李志刚:主要有四方面的挑战:第一,人才。2011年接触团队时,核心人员流失严重,技术人员多为基础技术人员,专业度不高,招人花了不少精力。在搭建自动化运维平台的过程中,我们遇到过两三种这样的情况。后来主要是对技术和平台的要求提高了,现有人员的能力成为了瓶颈,所以我们需要对一些能力进行迭代和替换。高技能人才为突破瓶颈提供新思路。二是运维模式。以前的运维模型会把自己看成一个服务者或者支撑者,但是我们发现服务者和支撑者在后面不会有更多的价值和产出。随着新兴技术的兴起,运维人员逐渐从幕后走向台前,运维模式也从之前被动等待需求转变为主动出击了解所有业务需求,甚至控制现有业务,然后部署自动化运营维平台架构。第三,心态。从之前的技术思维模式转向更加开放的产品模式。以前我们做的东西更偏向于工具,很少有平台化的东西,但是现在运维人员更多的是从产品的角度去思考,工具和相关的平台也是在产品模式下做的,恰恰是思维模式运维价值的真实体现。第四,沟通。过去,我们很少与外界交流和沟通,无论是开会还是同事间的交流,通常都不会太多。但是从2014年开始,我们逐渐和相关行业进行了大量的交流,包括腾讯、百度、阿里等互联网公司,找出畅游和他们的差距,也让团队看到了空间为畅游的进步。人在公司呆久了会累,同时因为缺乏与外界的交流,他会认为自己的制度很一流,其实不然。:目前DevOps是一个很流行的名词,你是怎么理解的?畅游是如何践行DevOps的?DevOps(英文Development和Operations的组合)是一组过程、方法和系统的统称,这些过程、方法和系统促进开发(应用程序/软件工程)、技术操作和质量保证(QA)之间的沟通、协作和集成部门。DevOps是为了填补开发端和运维端之间的信息鸿沟,改善团队之间的协作关系。李志刚:畅游打造的DevOps是运维和游戏开发的实时交付。我们是如何考虑这部分的?早期,研发部门向运维提供文件或游戏服务器版本的时间通常是凌晨或半夜,提供版本的状态很少。这种情况导致运维只能被动等待。因此运维经常加班到半夜。为了改变运维现状,我们希望为用户搭建一个从研发阶段到版本生产、打包、发布、最终版本部署的全链路打通的平台。在设计平台的时候,我们优先考虑了版本发布的自动化,因为版本发布集成了代码上传、打包、测试等,如果这个环节不能自动化,后续工作就无法进行。:畅游在企业异构系统之间的通信和数据交互方面主要面临哪些问题和挑战?1、系统交互接口不统一2、全球服务器3、数据一致性李志刚:主要问题是各个系统之间的交互接口不统一。因此,我们需要创建一个数据总线来规范所有数据的输入和输出。在网络层面实现全国互联是非常困难的,所以我们搭建了VPN隧道用于内网互通。网络架构面临的主要问题是全局服务器。许多手机游戏都有全球服务器的概念。对于我们来说,自动化系统和游戏服务器都必须是全球服务器。中国玩家和外国玩家需要同时在同一台服务器上,这对网络和系统的要求很高。所以我们目前做的方式是逐步加速,也就是有可能全球服务器的服务器在香港。但是,如果我确定用户是美国的,我就不让他直接访问香港,而是让他先访问离他最近的。地区,然后通过不同的地区一步步跳转到香港的服务器。然后我们在每一层做一个加速,解决用户延迟问题,这样就可以实现全局服务器了。数据交互的问题是数据一致性。全球服务器要求所有玩家拥有相同的内容,这将导致非常大量的数据交互。如果所有数据都批量传输,系统将难以支撑。为了解决这个问题,我们把所有的交互信息都切掉,哪些信息必须同步才能同步,哪些信息可以异步就异步,比如玩家的思维数据,延迟久了也无所谓时间。对于内网传输和外网VPN传输,将实时同步数据压缩到可控的数据包大小即可。:那您认为云计算会给企业目前异构系统的维度管理带来哪些弊端?李志刚:缺点是成本核算和系统复杂度越来越高。首先,成本核算难度更大。如果物理机、公有云、私有云都用,成本核算非常困难;第二,系统的复杂性增加。以往所有的平台和系统只需要连接一个系统。如果引入公有云,意味着公有云的管理也必须和平台对接,这会增加自动化平台和整个架构的复杂度。:您认为云计算会成为未来解决企业本地异构集成的可行路径吗?李志刚:我认为云计算会是解决本地异构的一条可行路径。比如畅游的部分游戏系统使用的是Windows。如果大量聘请Windows工程师,对公司来说成本非常高,从长远来看是没有必要的。因为公有云提供的服务非常丰富,畅游用的是阿里云的SQLServer,腾讯云用的是Windows操作系统,或者专机和一些技术服务。云端的便利性很强,在提高冗余度、效率等的同时可以控制维护成本,不仅可以节省大量成本,还可以大大减少等待时间。【原创稿件,合作网站转载请注明原作者和出处为.com】
