【.com原稿】回顾运维的发展,可分为脚本、工具四个时代、平台和情报。这种演变的原因主要有两个:一是大小计算机、PC服务器、虚拟机、容器等基础设施逐渐增多;越来越复杂。面对如此庞大、复杂、多变的系统,人力已经无力维护,开始探索新的出路:智能运维。近日,2018WOT全球软件与运维技术峰会的重量级嘉宾、大数据与运维管理领域拥有15年企业信息化管理经验的资深专家,程永新,董事/副总经理新居网,接受专访。运维的演进、AIOps的概念、技术难点和应用现状,以及新一代AIOps智能运维平台将推出。价值可视化、自动化效率、智能驱动能力2004年前后,中国开始大规模的IT系统建设。早期主要是大型IOE设备,价格昂贵,数量少,规模小,放置在独立封闭的机房内。运维基本都是通过电脑显示器上的SecureCRT命令行进行的。随着IT系统架构从传统的IOE集中式架构向互联网分布式架构演进,IT设备也从几十台发展到几万台甚至几十万台。没有工具,就无法进行运维工作。因此,可视化、自动化、智能化成为运维工具建设的三个方向和要求。可视化。首先,需要抓取之前“隐藏”在显示屏后面的各种设备信息、性能指标、日志信息,让领导和运维工程师在运维大屏上清晰的看到链路中断和指标。异常,再快速决策处理。因此,可视化是运维工作从黑屏到白屏的转变,需要对各种运维数据进行统一采集、存储和聚合展示。这段时间,新聚网络的做法是,纵向打通应用层、平台层、设备层,横向接入全网IT设备,收集全网数据,并在此基础上结合具体算法进行展示,从而帮助运维人员通过可视化呈现价值。自动化。更客观地说,是自助服务,即帮助运维人员解决海量设备的标准化运维问题,引发大量的重复劳动,可以提前解决的问题,以及可以通过程序设置编排完成的应用。可以自动完成,也可以半人工干预完成,提高运维效率,大大降低人为出错率。从这个角度来看,自动化可以认为是智能化的前奏。自动化的主要目的是提高效率,安全可控,减少对人员的依赖。要做到这三点,你必须明白:一切标准化的流程没有被整合到平台中都是无用的,一切没有场景驱动的运维平台建设都是空谈,真正的运维场景与运维融合的自动化和维护平台,才能真正解放企业效率。聪明的。智能化的目标是让机器代替人脑。借助现代设备的计算能力、海量运维数据和不断演进的机器学习算法,进行问题分析、故障预测和决策诊断,让运维人员无需关注实时运维大屏进一步提升故障处理效率,在故障发生前自动决定重启系统、限制业务流量、扩容设备等,降低故障发生概率。要真正实现智能化,仅靠工具是不够的。还需要结合实际运维场景,优化数据价值,以智能驱动运维能力,最终实现从发现、决策分析到问题解决的解决方案闭环。程永新用一句话总结运维这三个阶段:价值的可视化呈现、自动化解放效率、智能驾驶能力。从端到端,都应该更加关注新技术如何驱动业务增长。AIOps——机器学习算法改造升级IT运维能力当前,IT系统极其复杂庞大,企业数据中心正以两年翻一番的速度增长。同时,企业业务的IT化程度越高,对IT支撑的要求也越高,核心业务甚至不能容忍1分钟的中断,给运维带来巨大的压力。因此,运维行业本身也一直在发生变化和提升,从之前提倡的自动化到现在的智能化。近年来,随着AI技术在各个应用领域的落地与实践,IT运维也将迎来智能运维的新时代,AIOps的概念应运而生。但AIOps不是人工智能运维,而是AlgorithmicITOperations,强调通过机器学习算法对IT运维能力进行改造升级。AIOps将人需要进行的复杂判断和数据分析转移到算法和机器上,大大提高了运维的效率和质量。如果说自动化是解决运维的体力劳动,那么AIOPS的出现就是进一步利用数据科学、机器学习、神经网络等算法技术解决运维决策、故障预测、全运维等问题。自动化运维本身无法解决的维护数据。根因分析等问题,进一步解放体力人的时间和体力,让机器帮助机器进行IT运维。根据Gartner数据,AIOPS曾提出近两年企业采用率约为10%,预计2019年将达到25%,2020年将达到50%。目前应用和研究较多,主要在四个方面:1:数据异常检测和趋势预测,即如何从海量指标中快速发现异常变化和趋势,如AIOps智能运维的服务器性能故障和新居网络维护平台预测模块就是为此开发的;2:根因诊断,系统异常时如何快速定位问题根源,如百度的基于日志的智能故障定位系统;3:任务机器人,在微服务框架下模仿人学习、理解和使用系统API,在API异常时可以实现主动行为,无需人为干预;4:基于运维数据的决策分析,如容量分析。程永新表示,虽然人工智能在很多行业都有应用,但它仍然是一项相对前沿的技术,需要投入巨大。对于AIOPS,算法、数据、专业知识缺一不可。与一般领域相比,运维行业对AI人工智能人才的吸引力较小。因此,这方面的专家相对薄弱,需要尽快建立自己的人工智能人才体系。插上AI翅膀,运维平台焕发新活力。作为国内先进的IT运维服务商,新聚网络始终坚持以用户满意为服务标准。随着IT系统架构的升级和变更,运维服务也在不断演进,以保障用户对IT系统的管理体验。例如:为帮助客户提升复杂架构的管理能力,从提供单一数据库服务到综合运维服务商,为客户提供IT整体运维、架构、规划等方面的服务;以应对大规模的系统建设。质量问题,提出业界全面的用户体验和性能管理,包括端到端的性能优化、应用质量控制、数据资产管理等解决方案和服务;为提升企业海量设备管理能力,为客户提供“企业级产品+本地化服务”,涵盖可视化、自动化、智能化运维管理平台;为帮助企业管理日益庞大的业务数据,提升数据价值,提出数据资产管理“五星级模型”,提供一整套大数据及数据资产管理解决方案。程永新介绍,新聚网络几年前就成立了运维产品部,致力于打造基于AIOps的新一代智能运维平台。经过这么多年,不同行业客户应用的大规模迭代更新。该平台在中国移动某省公司实施,管理近2万台设备和数百个业务系统,提供监控告警、自动化运维、配置管理、调度管理、决策管理等能力。运维平台焕发出的新活力,在趋势分析、智能诊断、故障自愈、决策分析等方面得到有效发挥。AIOps新一代智能运维平台最跨越式的迭代是2016年发布的大数据日志分析平台IVORY,主要解决基于运维大数据的分析预测问题。通过对海量日志数据和运维数据的分析,智能分析提供运维决策、智能诊断、根因分析等能力,将运维从传统的被动响应提升到智能分析预测。IVORY应用了先进的大数据技术和架构、非结构化数据处理技术、异常检测、机器学习等相关技术手段,这也是信聚网络对AIOPS理念的践行。采访最后,程永新表示,新聚网络多年来一直致力于为客户提供卓越的IT运维管理服务,通过服务模式、产品能力、人才体系的创新,提供卓越的用户体验。新聚网络未来的重点布局主要有两个方面:1:通过“企业级产品+本地化服务”的双轮驱动方式,不断提升服务效率和用户满意度;客户积累的成熟、先进的运维管理经验,服务于更多的客户。基于十余年对运维的深入理解和实践经验,希望打造出行业优秀的智能运维产品,让国产软件具有更大的竞争力。【本月排名TOP5】张震:AIOps的六大技术难点与宜信运维的重大变革新居网络程永新:为运维平台插上AI的翅膀,焕发新的活力从SIEM&AI走向SIEM@AI人工智能打造下一代企业安全大脑基于线性网络的语音合成说话人自适应转转架构与算法部孙轩:AI下的微服务架构【原稿,合作网站转载请注明原作者和出处为.com】
