当前位置: 首页 > 科技观察

说说自增长的智能运维模型_0

时间:2023-03-19 19:14:59 科技观察

大多数AIOPS厂商主要提供算法的智能分析能力。无论是异常检测、趋势评估,还是自动分类,都是基于无法完全理解的数据算法实现。它的智能能力完全依赖于算法、数据、训练和标签。这种智能运维对于实际的日常AIOPS来说可能过于“繁重”了。每个项目都需要一个成本相对较高的实施过程,无法让AIOPS能力开箱即用。算法在没有专家长期协助的情况下,算法的能力无法自动不断地增长和进化。算法专家是一种非常稀缺和昂贵的资源,这使得采用这种方式的智能运维项目成为有钱人的游戏。造成这种情况的主要原因是这类智能运维系统的基础设施问题。传统软件是基于“目标”的软件,其逻辑是根据目标预先编程的。为了实现一个已知的目标,针对特定的目标,设计特定的实现路径,完成软件基础能力框架的设定,最终开发出软件系统。在实际应用场景中,为了适应不同用户的具体场景,最多也就是根据目标修改配置、调整参数、清洗数据,从而达到一定程度的差异化和定制化.但是,这种差异化与智能化之间还是存在着巨大的差距。这种区分仅仅局限于一个有限的范围内,并不能映射出系统预先设定的能力极限。智能运维工具应该能够针对不同的运维对象、不同的运维场景、不同的运行负载、不同的故障场景,实现差异化的分析诊断,实现更加精准的故障定位。智能诊断工具应具有较强的抽象能力,能够通过不断的自我学习或借助一定的外部辅助来发展自身的能力,以满足不同运维环境的需要。也就是说,AIOPS分析工具应该具备自我意识、自我调整、自我学习、自我成长的能力。神经网络实际上是对传统程序的高度抽象,将软件中的应用逻辑高度抽象为神经网络。通过深度学习,可以实现异常诊断需求到神经网络的自动翻译。通过不同数据训练后生成的神经网络模型,可以实现对不同输入的智能感知,从而完成分析。因此,理论上,只要有足够的历史数据和足够的训练,就可以完成抽象。看到这里,我们也不能高兴得太早,因为充分的训练需要极高的成本,而这种能力是不可能以低成本获得的。通过神经网络的智能分析算法可以解决AIOPS领域的部分问题,但不能解决所有问题。更复杂的运维环境需要通过知识推理实现更复杂的知识抽象。这种知识抽象模型不能从混沌数据中自动形成,必须依靠一个初始驱动力才能形成。因此,我们需要两个关键因素来实现这种初始化的驱动力。其中之一是知识组织形式的确定。我们需要一种知识抽象能力强的技术手段来存储抽象出来的知识。从目前的实践来看,图数据库是更好的基础载体,知识图谱是更好的实现知识抽象和描述的方式。第二个关键因素是现有领域知识的引入。即使我们已经有了非常强大的知识抽象模型,在空白的知识库中自动生成知识,或者在初始阶段开发知识,也是非常困难的。.由于缺乏足够的基础知识,无法完成知识推理。同样,自动学习和自我成长也无从谈起。如果能够导入一定数量的优质知识图谱,并以此为基础,对知识库进行积累、自学习、自增长,那么知识库的增长过程就会相对简单。就像婴儿一样,初期的能力成长是相当缓慢的。随着智能的发展,知识增长的速度会越来越快,知识库的增长也是如此。如果我们用上面的框架搭建一个智能分析系统,蓝色部分的代码框架基本是固定不变的,没有太大变化的稳定框架。它包含高度抽象的模型和算法。知识图谱是动态增长的部分。知识图谱的变化会改变蓝色部分计算框架产生的结果,最终决定整个系统的能力。指标数据集是动态的、个性化的输入参数。知识图存储高度抽象的知识数据。这部分内容以后会不断扩充,甚至自动增长。黄色部分是最终的智能分析能力。在核心框架代码保持稳定的情况下,随着指标数据的不断输入,模型抽象模块依托知识图谱不断处理数据,不断动态调整优化在线分析引擎和离线分析引擎,同时,根据已知的分析结果,自动调整知识图谱生成新的顶点和边。分析引擎使用标准化框架根据问题感知输入的参数数据,通过知识推理推导图,对图进行切割,形成适合当前场景的子图,然后转化为一组已知的指标和通过标准框架规则。输入到异常检测模块检测可能存在的异常,然后使用标准的智能裁剪框架根据问题收敛知识图谱对问题进行分类,通过迭代生成诊断结论。然后根据诊断结论进行二次发散,找到可以定位问题的工具,自动执行这些工具,对故障路径进行二次切割,最终得到诊断结果。知识增长的方法除了人工不断注入新知识外,还可以通过模型抽象器自动发现知识,自动生成知识点。这个知识点称为智能知识点。添加到知识图谱后,可以根据标准接口自动关联到现有知识网络的其他知识点。从而优化整个知识网络。