听到AI运维之后,很多人的心情更加焦虑了。我现在从事的运维或者开发,未来会不会被AI取代?现在新技术发展非常快,各种语言、技术、概念让大家不知所措,跟不上。但是有一点,在这里我要重申一下,现阶段AI还是一种大家判断的助手。还有学习、定位和处理问题的工具,就像无人驾驶一样,现在能完全无人化吗?当然不是。未来,无人驾驶可以完全替代人类,但还有很长的路要走。AI运维就像无人驾驶。未来前景一片光明,但任重而道远。大部分智能运维还没有完全落地,我公司也处于探索阶段。传统企业的运维应该怎么走?从以前的脚本到工具和自动化,再到现在的智能运维,中间这一步要做什么?今天,我将从以下五个方面与大家分享:1、构建全面、科学的IT运维管理体系***IT部门整体认知度不足。虽然现在IT在任何一个单位都是比较重要的部门,但很多领导仍然认为它是成本中心,而不是利润中心,认为这个部门是在花钱,而不是创造业务价值,产生利润。第二种对于运维人员来说比较繁重,工作模式不被工作人员认可。在没有自动化运维平台之前,整个运维团队只有八个人。如果一个人一天处理六到十个故障,基本上就没有时间去研究其他的东西了。传统运维压力大,跑路打火都累。必须求变,向自动化、平台化、智能化方向迈进。与第三次行动的情况有关的信息不足。监控是多维度的,不同的业务有不同的指标。指标总量达数万个,但没有全局变化图,难以形成体系,无法实现智能感知和态势预测。整个运维情况很难保持稳定。第四,根据业务需求调整服务和配置资源的能力不足。业务故障处理时间长,涉及相关技术部门多,需要与业务方交互,仅靠少量人力几乎不可能完成。我们希望在现有的业务系统中,运维部门实现这样的运维目标?第一,综合绩效管理。可对当前所有设备和服务质量进行实时监控,并提供动态阈值告警。第二统一资源管理。很多企业业务已经上云,需要一个统一的监控平台来抓取所有业务对应的资源视图,这样我们才能对整体资源进行合理的预估和分配,从整体上评估各个业务部门的资源。大局观。用法。三是及时的故障报警管理。我们发现有很多产品不能提供完全及时的告警。告警发生后,总是迟迟不被人知道。需要实时和准确的警报以减少延迟和误报。第四个重点是统一展示管理。集成许多不同的监控子系统是当今企业的巨大需求。借助各种工具,采集数据后,自动合成报表,统一展示,便于管理。我们关注的核心问题是:***我们是一个跨区域的平台,拥有多个数据中心。我们希望有一个统一管理的IT综合运维平台。二是深度监控,集中统一可视化管理,提高效率。三是有效防患于未然,降低运维成本。此外,在出现问题后,可以快速跟踪定位,降低人工成本。第四份多维报告为决策提供有力支撑,科学预测趋势。融合第五全球商业服务视角、平台拓展、大数据分析,满足企业对业务效率和快速迭代的需求。第六,保护和优化IT资产。过去,每个业务都有自己的一套系统,有自己的开发、运维人员、监控系统。这是企业重新发明轮子。现在上云后,原有系统集中集成在云端,通过统一监控和资源管理,对资产进行全面保护和优化。在做好智能运维工作之前,我们深入分析后提出四点要求:第一是标准化。标准化就是把操作尽可能的标准化,比如模板里面的基础配置和安全基线,都有一个标准化的标准。二是可控性。就是能够通过云监控平台发现各个业务中的瓶颈,包括资源瓶颈和性能瓶颈,并对可能出现的问题进行控制和分析。三是数字化。基于海量数据的决策分析有助于准确判断和科学决策。四是主动性。从被动响应到主动服务,主动发现问题,将问题消灭在萌芽状态,在业务出现问题之前及时通知,感受是不一样的。我们希望构建现代化、智能化的运维管理模式,主要有以下五个方面,如下图所示:2.全景业务服务管理在互联网大爆发的时代,国家层面也在推动互联网+、数字化转型、智能化等。我们的系统能否快速响应以保护业务?面向业务的IT服务管理主要有以下特点:1、监控的粒度要细,可以通过曲线捕捉异常点。2、面向业务的管理和面向用户的管理。这个应该区分。在企业中,用户权限被划分得更细。谁可以操作什么样的业务,管理员可以管理哪些类型的业务,都有明确的定位。3、数据的全面性和可扩展性。只有全面的数据才能做出科学的决策。很多时候,如果你看到的日志不完整,或者得到的监控数据不准确,你肯定会贸然做出决定。比如数据中心某条业务链路出现问题,是不是应该切换?数据是否仍然一致?这个时候,在没有确定的数据支持你的决策之前,你在做决定的时候会更加的不安和犹豫。建立面向业务的综合监控平台的主要目的是实现统一展示、统一管理、统一调度。全链路监控的目的是监控和感知从接入入口到数据输出的每一个过程。从业务角度管理和维护IT基础资源。一旦某个资源出现故障或者出现问题,可以从业务视图直观的了解到这个资源的故障会影响到哪些业务和服务,进而知道哪些用户会受到影响。.数据库慢,CPU突然飙升。这些地方这些资源突然发生变化后,哪些业务会受到影响?这时候就需要将监控资源视图与业务关联起来,从而准确定位到哪些业务受到了影响。这是对问题的整体诊断和分析。任何问题都需要收集相关的日志和数据,以便科学、全面地分析问题。采集层需要采集不同数据源的数据,中间层做一些性能分析、配置管理、预警分析、告警处理等。展示层展示分析结果,即各种图表,建立全面的业务指标分析,便于根源定位和问题解决。3、基于大数据平台的日志分析和多维报表基于大数据平台,提供日志采集和聚合处理,通过日志关联分析帮助准确全面定位,提升绩效和满意度,智能预测预警,以及为科学决策提供量化依据。收集采集到的网络监控数据、机房数据、服务器和云环境监控数据、摄像头告警数据。收集数据后,生成PMDB绩效管理数据库。根据业务应用的特点,建立不同的模型进行相应的算法分析。KPI指标根据不同的资源类型定义。建模的目的是为了便于快速分析,为资源管理、告警管理、集中展示等其他模块提供数据分析模型支持。数据收集有两种类型,一种是被动的,一种是主动的。收集业务相关的指标,可以对数据进行预处理,做一些有效的标签标识,比如这些信息和指标是否是你关注的,格式化不友好的日志。性能指标的计算必须与业务相协调,从业务的角度来定义。设定的阈值,有的场景是固定的,有的场景是动态的。固定阈值相当于资源使用率,必须有一个上限。动态阈值就像一些性能曲线,比如CPU利用率、页面响应、图片加载等,都可以使用动态阈值。可以根据历史数据计算动态阈值,根据这些可以合理计算某一时刻的历史峰值。目前需要多少资源。根据以上阈值,就会有报警事件发生。任何事件都是以时间为依据的,故障定位也必须以时间为依据,才能找到相关的日志和事件。事件诊断一直是运维领域非常重要的工作。事件与时间的相关性不仅可以为事件诊断提供很好的启发,也可以在帮助我们进行根本原因分析时提供很好的线索。在一定时期内发生的故障会产生一些相关的事件。对它们进行筛选过滤,可以详细捕捉故障,定位根源。在事件诊断和处理中,是否需要引入算法?我觉得很有必要。如果能提高效率和解决问题的能力,一切探索都是值得的。也有一些运维领域的朋友,花费了大量时间和精力学习和研究算法。我认为没有必要太纠结于算法。简单了解一下这些开源算法,知道这些算法的输入输出是什么,就能解决运维问题。有哪些实际问题,结合起来可以解决哪些问题,只要我们合理应用就够??了,对于智能运维的更快落地会有事半功倍的效果。数据聚合处理就是将采集到的数据进行有机关联、压缩、过滤,形成标准化的信息。可以通过全量HDFS和增量Kafka实现数据导入。基于大数据平台的多维报表,根据自身需求,按日、周、月生成运维报表,发送给管理层领导。这些数据是他们比较关心的,用更清晰的图表展示这些时间段内发生了什么问题,造成了多大的影响,进而决定是否扩充相关资源,是否需要进行相应的业务部署进行调整。综合展示侧重于性能分析、容量分析和自动配置。比如我今年采购了500TB的存储,我用了多少,明年需要扩容多少,业务增长会有多少,这些都会影响到公司的采购计划。根据实际业务评估,计算明年需要购买多少TB的存储。4、IT监控管理平台的发展IT监控管理的发展大约经历了三代。从1990年代到现在,第一代是以网络为中心的。在此期间,我们提供更多基于网络的监控和故障管理。发现、带宽管理和服务水平协议。第二代监控以监控IT基础设施为中心,我们更多看到的是对主机、存储、操作系统、中间件、数据库等各种基础资源的监控。第三代监控以IT应用为中心。对于更复杂的交易,需要实现面向用户体验和应用高可用的实时监控和故障智能诊断。运维人员要有高瞻远瞩、周全规划,能够提供全局实施的灵活、高效、健壮、标准化、自动化的监控方案。5.故障管理和自主自愈这是我们每天收到的告警的统计。在自动化和智能化之前,我和其他人一样焦虑和崩溃。如何从错综复杂的运维监控数据中得到我们需要的信息和结果,总之就是区分提炼,提取出真正需要关注的信息,从而减少日常告警信息量。目标是简单、智慧和深度。简单是为了保证业务和SLA服务水平。问题及时响应,自动分析优化,处理流程精简高效组合,第一时间将问题匹配到正确的场景,找到合适的人,正确处理。.机器学习主要是突出智能。这需要大量数据进行训练。故障以各种形式出现。对历史故障数据进行场景分类和标注,不断利用模式识别和数据训练机器识别和分析,进而让机器自动准确判断。当然,打标签不可能完全靠人来做,关键词也是由机器自动打标签的,而打标签的合理性需要人去判断,然后用于机器学习,这样才能真正的辅助我们做一些决策.基于工程师的架构、经验和概率汇聚告警事件,基于规范和分工生成告警事件并发送给合适的人,基于数据和模型提升事件处理能力。一些工程师可以非常快速地处理许多事件。相反,对这个故障不熟悉的人可能要花很长时间。这就需要建立一个政策知识库供他人参考和学习,从而提高在类似场景下处理事件的能力。智能运维的目标是减少对人的依赖,逐渐信任机器,实现机器的自我判断、自我判断、自我决定。技术在不断改进。AI技术未来会解决很多需要大量人力和时间去解决的事情,但是AI并不是一个很纯粹的技术。还需要结合具体的企业场景和业务,以计算为驱动。并以数据为驱动,以生产出真正可用的产品。智能运维技术在企业的落地不是一蹴而就的,而是一个循序渐进、价值普及的过程。可以看到,智能运维技术已经成为新运维演进的开端。可以预见,经过更高效、更平台化的实践,智能运维将为整个IT领域注入更多的新鲜感和活力。未来继续发展壮大,成为引领世界潮流的重要力量!
