【.com原稿】回顾运维的发展历程,可以分为脚本时代、工具时代、平台时代和智能时代四个时代。这种演变的原因主要有两个:一是大小计算机、PC服务器、虚拟机、容器等基础设施逐渐增多;越来越复杂。面对如此庞大、复杂、多变的系统,人力已经无力维护,开始探索新的出路:智能运维。第十八届TechNeo科技沙龙现场今天,由公司主办的第十八届TechNeo主题科技沙龙如期举行。本次沙龙邀请到了京东金融高级研发工程师、集几易产品总监张晨。资深云计算专家王强饶晨林。三位老师不仅分享了智能运维的方法和方法,还分享了各自领域的实践案例,希望能给运维人员带来一些新的思考。异常检测与根因分析第一位发言的是从事智能运维监控平台研发与实践多年的京东金融资深研发工程师张晨先生。参与并主导了APM等产品的研发与应用。双11***TPS运维保障,他分享了主题为异常检测与根因分析。张晨·京东金融高级研发工程师张晨的分享从智能运维的背景、难点、优势和运维适用领域入手。故障根源分析的核心是从大量的数据中找出故障的根本原因。张晨表示,传统的异常检测存在适应性差、不同应用和场景的阈值异同、大量个性化配置、人工维护基本不可能等缺点。面对这样的情况,就需要使用动态阈值异常检测,引入机器学习来应对。在根因分析方面,常用技术方案的不足主要体现在:基于网络化业务拓扑图中降维后的若干环节,具有不确定性;拓扑图只能反映模块B对模块C的调用,模块C调用模块D;无法判断是在哪个环节连续调用,导致根因分析错误,误报;针对这些不足,张晨分享了根本原因分析、根本原因预警的改进方法、原则和步骤,以及一些相关的真实案例。HSLT项目-机器人智能运维前身第二位分享者十年IT从业,两年高层管理,八年研发管理经验(云计算、平台化、产品化),三年国家级工程项目开发管理实施经验丰富的王强老师。先后就职于中软国际、IBM、青云等知名企业。他分享的主题是HSLT项目——机器人智能运维的前身。王强·资深云计算专家HSLT是早期的IBMCloud项目,但其核心理念至今仍处于领先地位,而QingCloud青云借鉴了其诸多设计原则,在多个领域真正实现了大规模在线复杂分布式系统故障无需任何人干预自动恢复和处理。王强介绍,HSLT的目标是利用自动化、机器人、人工智能等技术,从最顶层的IAAS开始,以极少数的人,达到管理超大规模系统环境的目的,PAAS和SAAS层。大规模集群、产品和服务质量优先、产品平台化、行业监管许可等是HSLT经验的适用范围和边界。后续讲课围绕HSLT的设计原则展开,过程中提到Designforfailure、ASAP、Scalableeverything、Dependenceinversion、DevOps、TDD。王强的分享也涉及到很多互联网公司在智能运维方面的实践,比如合理的架构分层、单元化部署、业务连续性管理等,其中数据驱动的智能运维平台饶陈林老师分享的最多,洛易产品总监。深度研究和大规模实践经验,他分享的课题是数据驱动的智能运维平台。集集易产品总监饶辰林分享了整个分享,从运维需求的本质出发,推导了AIOps的架构设计和构成。过程中详细介绍了最重要的场景:时序预测、异常检测、模式总结的分析原理和实现,以及对应的开源项目选择。饶老师表示,更灵活易用的数据接入和分析,可以分析以往分散在各个组件中未被使用的业务数据和上下文,快速探索和实验平台提供独到的见解,这是AIOps的三大方面.影响。从“系统构成”来看,AIOps架构可以分为几个模块:数据湖、自动化系统、记录系统、交互系统、监控生态系统。智能运维的作用:异常检测、归因分析、智能告警、未来预测、容量分配、数据汇总和主动监控。智能运维路径:异常检测->主动监控;数据汇总->异常检测->主动监控;未来预测->容量规划/异常检测;根本原因分析->智能报警->自动化;我和三位老师不停地讨论异常检测、监控报告、归因分析等等,不知不觉时间就过去了。原本应该在17点结束的沙龙,在临近18点的时候,一波才子未了而去。通过这次交流,更加确定了实现智能运维是未来运维工作的发展方向。而实现运维工作的流程化、标准化、自动化是实现运维智能化的前提。企业可以合理规划,前瞻布局。通过一段时间的积累和优化,信息系统将逐步转型,尽快实现标准化、自动化模式,为最终的智能化打下良好的基础。2016年举办了以TechNeo为主题的技术沙龙,意在为IT技术人员提供一个优质的线下学习交流平台。目前仅限北京地区。周期为每月一期,每期围绕一个话题展开讨论,涉及人工智能、大数据、云计算、区块链、物联网等技术领域。更多AI内容,请关注公众号:AIPromoter【原创稿件,合作站点转载请注明原作者及出处.com】
