当前位置: 首页 > 科技观察

如果只把AIOps当成运维技术,就太肤浅了……

时间:2023-03-20 11:09:53 科技观察

最近一篇《智能运维行业乱象:估值虚高、上市受阻、裁员频现》网文在运维圈很火,有些观点很吸引人。今天不评论文章的观点,而是摘取《数智万物下运维》系列中的一小段,讲述我对金融企业智能运维的理解。AIOps是运维的方向,但AIOps不能简单地看成是一种技术手段或技术平台,而应该是数智时代人机协同的运维模式。1、人机协同AIOps运维工作模式一种新的工作模式的出现必然会改变原有稳定的工作模式,而这种改变通常会遇到新的挑战。因此,新的工作模式需要能够解决当前运维工作中遇到的问题。出现问题。以金融行业的业务连续性管理为例,目标是提高公司风险防范能力,有效减少非计划业务中断,防范运维操作风险。对于第一次出现的未知异常,可以利用工具进行定量分析,快速定位。确保在发生重大灾难性事件后可以按计划恢复业务连续性是一项传统。面对当前复杂的技术架构、不断推出的创新技术、快速迭代的软件版本、严峻的信息安全威胁,传统的运维团队一直处于被动、问题驱动、操作化、经验化的状态。难以实现企业业务连续性的保障目标。金融企业的安全稳定运营需要运维数据提供数据洞察、辅助决策和跟踪执行能力,提升复杂环境下的运维管理能力,即:实时掌握“发生了什么?";相关分析“为什么会发生?”;智能预测“会发生什么?”;决策判断“采取什么措施?”;自动执行《如何快速执行?》实时感知“工作执行的效果?”AIOps的诞生就是为了解决上述问题,相较于传统的AIOps,AIOps的重点不在于创造新的运维工作模式,而是对现有的“专家经验+最佳实践流程+工具平台”的运维模式进行补充,以为企业运维工作提供“洞察力”。“感知、运营决策、机器执行”能力支持向“人机协作”模式过渡。为什么是“人机协作”模式而不是智能模式?因为从目前AIOps的应用情况来看人工智能技术虽然领先,但在面对复杂多变、不完备的信息环境时,尤其是应用于需要复杂应急保障的场景时,仍然没有替代专家,只能应用于一些特定的人工智能薄弱领域。“人机协同”侧重于通过机器辅助人类进行决策和执行,是将机器人的作用加入到原有运维组织内部参与者的协同网络中,以及研发、测试、厂商在运维之外,形成人机协作。模式。在人机协作的运维模式中,最关键的角色仍然是人,利用人的创造力,结合机器提供的数据和算法,辅助人进行运维工作。总的来说,人机协作需要充分发挥人与机器人的优势,形成一体化的解决方案。AIOps未来的重点推进方向可以集中在三点:“数据+算法”赋能运维专家“实时感知、辅助决策”的能力。增加运维机器人岗位数量,并重塑“大计算”、“海量数据分析”、“可操作性”、“过程性”、“规律性”、“7*24”、“人机体验”等类型的运维工作。建立数字化2.数据、算法、场景、知识构成AIOps的4大关键要素Gartner定义中提到,AIOps应用需要使用大数据、现代机器学习技术,等高级分析技术,是一种比较高门槛的工作模式,为了更好的实施AIOps,运维组织需要深刻理解AIOps的内涵,关注on实现思路:基于数据、算法支持、面向场景、基于知识的AIOps4个要素。1.基于数据数据至上,AIOps需要有快速产生高质量数据的能力。“快”的思路可以和“中台”的思路一起搭建,建立统一的数据采集和控制、实时和批量数据处理能力、运维匹配的运维算法、存储方案、主数据、索引模型等;“高质量”是指将分散的数据统一起来,上线后形成“活数据”,以及对数据质量的治理。从技术实现上看,它具备实时管理数据流“采集、存储、计算、管理、使用”全生命周期的能力。其中,数据采集是按需在线采集数据的能力;数据存储是根据数据类型和数据应用特点对数据进行归档、组织、传输和共享;数据计算包括数据标注、清洗、建模、处理、标准化和质量。用于数据洞察、决策和执行的监控和数据分析统计;数据管理侧重于数据治理,包括运维数据标准、主数据、元数据、数据质量、数据安全管理;数据使用侧重于从数据服务的角度,涉及到数据目录、服务入口,以及配套的数据服务能力。2、以算法为支撑的算法大脑,在特定场景下适配引入运维算法,构建算法模型体系。机器学习特别是深度学习的大规模应用,推动了人工智能的快速发展。随着国内TOB市场的蓬勃发展,人工智能在AIOps上的研究和应用正处于爆发期。引入AI技术的算法具有三大优势:一是工作稳定性高,人工智能可以不知疲倦地工作。分析不受环境影响。二是降低运营风险,用人工智能代替传统的人工体验操作,可以更好地规避运营风险和道德风险。三是切实提高决策效率。人工智能可以快速筛选和分析大数据,帮助人们更高效地做出决策。作为一家金融公司,一方面,由于人才和薪酬结构的不足,在算法建设上应该更多地与外部供应商合作;另一方面,对算法的追求并不一定是技术的进步,其实永久专家经验的落地也是一种算法的实现,而且往往更靠谱。目前主流的算法参见上一节提到的常用算法,这里不再赘述。3、面向场景,以场景为驱动,从痛点和价值预期出发,以智能赋能运维场景,实现智能运维能力。AIOps从文字上来说应该包括“AI+Ops”,是一种用AI赋能运维场景的模式。有了上面提到的数据库和算法大脑,接下来就是AIOps运维模型的实现,主要围绕场景的实现,一是用算法赋能现有的运维场景,二是是实现原有算法无法实现的运维场景。前者是速赢模式,后者是应变而变。4、以知识作为运维知识的扩展,描述运维领域的大量相关对象定义、技能、故障/解决经验信息。运维知识图谱是连接运维对象不同类型信息得到的关系网络,是表达运维数据的关键技术。通过构建运维知识图谱,从海量数据中自动挖掘各种运维主体,对其特征进行纵向、结构化描述,动态记录运维主体之间的关系。基于运维知识图谱,利用自然语义等算法技术,帮助IT人员实现故障链传播分析、根因定位、智能变更影响分析、故障预测等多种AIOps场景。三、关于AIOps的其他一些看法1、建立场景图,并系统、有节奏地实施。AIOps类似于目前大部分领域AI技术的应用。人工智能是一种平台能力,而不是一种业务。以网银系统为例,PC端网银解决了柜台到柜台的便捷性问题,手机银行解决了从鼠标键盘操作到手指滑动屏幕的操控问题,随心操作时间。手机银行解决了从触摸屏到沉浸式智能的体验问题。在这个过程中,很多业务的本质没有变。所以,面对AIOps,运维机构需要建立场景图,根据场景图分配优先级,看如何将AI的优势应用到运维场景的具体环节。2、“活数据”是智能运维的基础。实时数据有两个含义。一种表示数据是活的,即数据全部在线;,形成数据回流。过去,运维数据分析主要是基于批量离线数据来制作报表辅助决策,但很多运维工作场景都需要实时数据分析支持。因此,需要借助运维数据平台,实现机器数据的实时获取和管控,落地数据资产,进而实现场景化的数据消费,建立数据应用执行的反馈,持续优化数据-驱动工作流并形成更准确的数据。因此,直播数据的实现具有三个关键要素。一是构建协同网络运维工作场景。协同网络需要打破在线工作流孤岛,打通“人、组织、软件、硬件”之间的网络连接;运维机构应建立运维数据平台,汇集生产运营相关数据,抽象为数据服务,便捷地为运维场景提供价值;第三,它要不断地消费数据,发现数据消费中的问题,并加以纠正。数据,挖掘数据增值服务,产生新数据。3、第一印象很重要。AIOps作为一种全新的工作模式,给用户的第一印象就是可靠好用。如果第一印象持怀疑态度,将给后续工作模式的运营和推广带来极大的挑战。AIOps算法最需要解决的问题是改变人们对“算法精度”的印象,即引入“算法”不是为了创新,而是为了解决现实问题。以辅助故障定位为例,正常运维机构中的许多日常故障,通常可以通过专家经验、监控工具和有效的协作机制来解决。引入AIOps赋能故障管理,是为了更快更准。得益于机器的自动化和计算能力,通过精心设计的在线应急场景,“快”的问题可以有预见性地得到解决;但对于“准确”来说,它或多或少是一个黑盒子,所以在应用算法时要谨慎,解决问题远比高级算法重要。最后,无论是运维团队中的工具开发,还是厂商,在推广AIOps模型时,都应该关注一线运维专家的经验和运维实施的配套工作机制和维护模型,从而将人、流程、工具和特定的“物”连接成一个真实可用的场景。