[.com原稿]《初夏,你终于有机会享受那宝贵的年假了,海风和煦,阳光明媚温暖,你戴着墨镜,悠闲地看着,潮涨潮落,这一刻,你正在回忆初入运维的日子,“失败无情,假期无休止”,手机响了适时——“闹钟”。你对着手机声音淡淡的说了一句:“滚回去。”然后放下手机,继续看海,让海风吹拂你的头发,你的心就像远方的大海一样平静。”这是在2017年4月15日的“WOTA全球架构与运维峰会”上,搜狗运维总监张博描述了未来运维的理想状态。他在当天的演讲中,深入介绍了目前搜狗实现理想运维(“智慧运维”)的研究方向。会后,我们有机会与张博先生进行了深入的交流和采访。张博·搜狗运维总监运维三大痛点之所以运维如此渴望平安假期,在张博看来,这恰恰是当前运维痛点的重头戏。目前运维存在三大痛点:愁成本、烦成本、智商不够。这三大痛点在张博的演讲中也被反复提及。所谓担心成本,类似于相声的主题《扔靴子》——你不知道什么时候第二双靴子会扔下来。运维也是如此。你不知道失败什么时候会来,所以你总是提心吊胆,惶恐不安。并且多次报警,却不能反映真实情况。这就是运维成本。恼人的成本是确保在线可靠性所造成的。一旦出现问题,无论大小,最先被询问的都是运维人员,所以运维人员最容易被打扰,导致运维人员没有很多时间去做运维开发(搜狗规定:运维人员不做开发不得晋升),开发效率太低。第三个痛点:智商不够,很简单,字面意思就能看懂。遇到了故障,但不一定能第一时间定位到故障,尤其是遇到复杂的故障时,如何查找故障是一个非常痛苦的问题。针对当前运维痛点,搜狗做了哪些工作?张博给我们分享了三个正在进行的项目,它们共同构成了搜狗的智能运维体系。智能熔断器的实现原理首先是智能熔断器系统。这是搜狗目前正在开发的一个运维成本项目。主要思路是:根据运维出现问题的时机,做智能监控。一旦出现问题,运维人员可以远程操作,可以采用熔断回滚。这不是一项新技术。在股票和医药领域,基于时间线的数据监控早已被广泛应用。股市用数据监测来预测股票的涨跌,医学可以用数据监测来预测疾病的发生时间。这些特点与运维高度相似。而这恰恰是当前运维领域面临的挑战。大部分前沿人才集中在金融和医疗领域,IT领域的人才很少。智能问答系统——维多利亚的秘密第二个是智能问答系统——维多利亚的秘密。这个问答系统已经在搜狗内部开始内测,也是为了解决运维的第二个痛点——恼人的成本。运维人员每天都需要回答各种问题。这项工作需要花费大量琐碎的时间,而这项工作完全可以由智能机器人来完成。智能机器人该机器人具有三个功能。一是智能核对清单功能。搜狗内部运维系统中有很多工单。查询员工工单号时,可以查看工单进度,类似搜狗搜索,可以输入快递单号显示快递状态。二是智能找人。顾问问了一个问题后,可能打不到知识库(知识库是运维人员事先编辑整理的)。机器人不能回答,但是机器人可以判断这个问题属于哪个领域,然后推荐这个领域的专家,如果你问的是硬盘的问题,你会推荐硬件领域的专家来回答问题。顾问和专家之间的对话将被保存并作为机器进一步学习的数据。第三种是最常见的智能问答,顾问提出问题,机器人直接根据知识库回答。三是精准故障定位系统。这是搜狗目前已经完成的一个项目。当用户端收到访问搜狗业务的告警时,说明搜狗网站的可靠性存在问题。过去,解决问题往往是靠经验和人的定位。张博表示,搜狗今天的做法是,将问题提炼成一个规则模板和一套规则,然后根据具体的业务架构图进行分析,最终定位到具体的故障原因。一般的算法是每个探测请求携带一个ID,这个ID连接到各个模块。搜狗运维人员分析requestID在各个模块中的表现,根据这些规则模板检查是否命中设置的规则模板,然后根据这些规则模板的命中情况定位到系统系统进行决策定位故障。甚至可以定位到它属于哪个模块的哪个节点,以便快速处理这个故障。这三个系统是张博和搜狗运维同事为实现未来运维的理想状态——面朝大海,万事大吉,我们又回到了一个经常被讨论的问题。理想实现后会怎样??运维会被自己创造的人工智能所取代吗?被问到这个问题,张博笑了笑。显然他是有观点的,张博很坚定的说道:“运维人员的工作肯定不会被取代!但是运维的工作内容会发生质的变化。在人工智能到来之前,工作运维人员仍然是在线人肉操作。但是在智能运维到来之后,运维人员负责研发智能运维引擎,让引擎更智能、更稳定,所以人工智能的到来不仅不会让运维工程师失业,反而会使运维工作升级。因为毕竟强大的不是人工智能,而是开发这些人工智能的人。”这一观点与循环神经网络之父一致,德国计算机科学家JurgenSchmidhuber也有类似观点:“人类一直擅长创造不存在的工作……很容易预测哪些工作会消失,但它是预测未来会出现哪些新工作并不那么容易在80年代,谁会想到30年后有人会作为专业视频游戏玩家或YouTube明星赚取数百万美元?人力解放了,关于“机器代替人”的争论不绝于耳。就人工智能的发展而言,其初衷是解决机械重复、大规模的计算任务,而运维恰恰是这样一个高强度的工作密集型领域,这也是为什么人工智能能够走率先在现场应用运维因素。正如张博所说,人工智能的到来并不是要取代运维人员,而是要对运维工作进行升级,这也对运维人员提出了更高的要求——自我升级,与时俱进次。【原创稿件,合作网站转载请注明原作者和出处为.com】
