到底什么是AIOps?IT领导者需要了解有关AIOps的常见误解,尤其是解释AIOps方法为何能或不能达到目标。你觉得DevOps难懂吗?你可以先了解一下AIOps。研究公司Gartner在五年前首次创造了这个词,AIOps的含义现在已经从“算法IT运营”变成了“AI运营”。使用通用算法来帮助IT运营团队的想法并不新鲜。有人可能会争辩说,AIOps正试图驾驭AI炒作和炒作的浪潮,并且有一些运营和监控工具制造商试图添加AI组件。如果你让10个人来定义AIOps,你最终可能会得到10个不同的定义:类似于之前很少有人同意云计算的定义。DevOpsInstitute研究总监EvelineOehrlich对此进行了描述:“AIOps解决方案使IT运营和其他团队能够通过更好地分析传入的数据量和类别来改进关键流程、任务和决策。采用这些工具可以自动快速地摄取大量数据数据。机器学习用于分析数据并对发现的问题提供可预测性或警报。这种新发现的知识可用于自动化或决策制定。”IT领导者需要能够理解和解释有关AIOps的一些常见误解,这些误解可能来自组织的领导者、同事、合作伙伴和客户。下面解释了各种AIOps方法实现或不满足业务目标的原因。AIOps:它是什么以及它能做什么,这里深入探讨是什么推动了当前的AIOps势头以及IT团队看到的好处。例如,如果一个组织已经在使用容器和Kubernetes,那么可能会有这样的想法auto-drivenclusters,youcanstartimplementingAIOpsrightnow.1.AIOps不是产品如果你想将AIOps引入你的组织,你可能会想要购买一个AIOps产品并计划在一年内部署并完成它。在操作堆栈中添加另一个产品,并增加复杂性,您如何处理更多的复杂性?首先考虑当前AIOps产品提供的通用能力,仔细了解当前的工具设置并评估存在差距的地方:基线:用于指标和其他基于时间序列的数据。根本原因分析:连接多个信息源并向下钻取。异常检测:预测未来并警告偏差。相关性:比如指标和工单之间的相关性。模拟:假设场景。人们会将AIOps视为一种功能,而不是一种独立的产品。对于某些功能,专用工具是不够的,因为“魔法”只有在所有工具相互连接时才会发生。就像单个神经元不能构成大脑一样。2.在使用AI之前,你需要Ops。俗话说,“先学会走,再学跑”。原有的监控措施没有问题,但需要在系统环境中增加指标、日志和可观察性。因此,首要任务是使其操作简单。如果遇到太多警报,则需要确定最重要的警报。如果您没有从关键应用程序中获取指标,请开始实施指标。开始定义组织需要满足的服务水平指标(SLI)和一些服务水平目标(SLO)。这样做可以发现监控设置中的一些盲点,并提高工作的可见性和操作能力。在遇到障碍并手动设置警报阈值不再有效之后,是时候使用新工具了。了解自己的局限性始终是改进的第一步,因此AIOps之旅始于收集数据并理解数据。如果AI研究人员冒险进入一个新领域,要做的第一件事就是执行探索性数据分析(EDA)。这包括了解数据特征,例如什么是列名、什么是值以及什么是语义上下文。同样,AIOps工作的第一步将是确保组织能够轻松收集和访问所有运营数据并能够将其可视化。这不仅意味着当前数据,还意味着历史数据。只有这样做之后,旅程的下一步才能开始,试图找到新的信号和见解并将其付诸自动化行动。3.AIOps是一种文化变革有些人将AIOps视为运营中的文化变革,正如DevOps运动以相关的文化变革而闻名一样。DevOps结合了开发和运营团队的两种文化,创造了一种以速度和实验为特征的新文化。如今,DevOps专业人员使用开发人员和运维工具集中的工具已成为理所当然的事情。您会看到统一的基础架构或应用程序开发团队为运行他们的代码提供服务级别指标(SLI)之类的东西。现在,可以将数据科学家角色添加到组合中,并将获得AIOps。换句话说,使用探索性数据分析(EDA)等方法或JupyterNotebooks等工具来改善组织的卓越运营将推动更多IT专业人员进入AIOps领域。AI/ML社区也是如此,它仍然与部署模型的操作方面脱节。如果数据科学家变得更像AI工程师并接受并理解DevOps的好处和挑战会怎样?那么久而久之,人们就会把注意力转移到IT方面的问题上:有趣的是,使用人工智能技术,它可能比人类更擅长识别猫的图片,但识别坏硬盘仍然是人工智能技术的一个挑战。4.整合成为当务之急那么,如果AIOps不是一个产品,它会在哪里发生呢?一旦您看到数据集之间存在某种相关性或多次中断,期望AIOps能够自动执行某些运行或指导如何解决中断问题。而这种“魔法”发生在工具之间的结构中。它可以以零售价出现在更小的连接层中,例如为用户提供相关系统链接的聊天机器人,从而更容易从指标仪表板跳转到调试控制台。但如果不是因果关系,则相关性,即使您使用AIOps工具发现两组指标之间存在相关性,您仍然需要对其进行验证并决定是否在未来采取行动。或者,相关性可以帮助确定中断的原因。这一切都是为了更好地理解和管理设置的复杂性,然后集成自动化助手和操作。5.使用开源软件这是开源软件发挥重要作用的地方。在开源产品中,组织可以阅读任何级别的代码并了解正在做什么。将其转化为操作领域,用户能够在软件堆栈的每一层公开指标和跟踪数据,并理解其含义。新一代数据中心建立在Kubernetes之上,广泛使用微服务和API驱动的软件部署流程。现在监控API调用非常容易。从本质上讲,可观察性意味着可以随时以任何细节级别检查景观。使用一些数据科学工具来可视化和指导数据探索可以帮助进行根本原因分析和故障排除。现在,组织使用相同的范例来部署和管理他们自己的应用程序,将它们容器化,然后重用监控堆栈,可以检查和观察他们的应用程序堆栈。因为使用相同的工具,所以很容易跨平台和应用程序关联指标。Prometheus已成为该领域事实上的监控标准,并且本身是API驱动的。类似的项目,例如Loki和Jaeger,可以帮助进行日志记录和跟踪。然后,组织可以使用Kubernetes原生数据科学平台(如OpenDataHub或Kubeflow)来收集和分析所有数据。对于IT团队,好处是减少摩擦和深度集成,并通过开源工具强制执行标准。6.数据很关键组织可能没有足够的数据。但如上所述,这些数据必须干净且易于理解。因此,组织可以收集自己的数据池并训练自己的AI模型,这在几乎所有商业AIOps工具中都是必需的,因为没有内置的预训练智能。但是,如果您可以在公共数据上训练一些通用模型,然后将其用作训练您自己的模型的基线呢?没有人想从头开始,他们需要更多帮助。数据库应用程序可能会为常见的工作负载和架构提供自己的模型。然后根据组织的特定需求将学习内容转移到特定设置。这将是一个开始,根据您的需要进行区分。例如,在公共云项目中,平台和工作负载在社区中运行,而指标、日志和工单等运营数据在开源许可下发布。这是为了使数据科学家能够创建开放和免费的模型。如何开始使用AIOps任何采用DevOps工作方式的IT领导者都知道改变习惯需要不断的实践。采用AIOps思维方式的IT团队也是如此。您可以从一个易于理解的问题开始,然后经历开发AIOps功能的演化周期,努力实现更多的AI辅助、AI增强,最终实现AI自动化IT运营。文化变革需要组织中的拥护者、发起人和榜样。与其陷入关于AI的炒作和炒作中,不如采用它,了解基本原理,并解决问题。每一次革命性的创新都是从小事开始的。未来,人们可能会对思想开放的工程师、运营专家以及先进的平台和运营堆栈所取得的成就感到惊讶。
