Intellyx首席分析师JasonEnglish曾表示,混合IT带来的复杂性、超高速交付和自动化挑战,造成了难以逃脱的事件和警告风暴。尽管新兴的AIOps平台还远非完美,但它已经能够为站点可靠性工程师(SRE)、运维人员和开发人员提供应对这场风暴的重要助力。DavidLithicum在GIgaOm发布的《Key Criteria for AIOps》报告中写道,“这些AIOps工具都围绕数据展开。”Lithicum强调,在系统监控过程中,真正能暴露问题的始终是数据。对于专门负责预测故障或其他潜在问题/趋势的解决方案,任何人工智能系统都必然高度依赖模型训练阶段的数据供应。那么,AIOps是如何运作的?机器学习和人工智能(或应用程序)智能如何使用数据帮助繁忙的SRE和DevOps团队优化故障排除并解决实际问题?让我们一起来谈谈吧。我们先来看一些基本定义。什么是人工智能?人工智能(AI)是利用机器模拟人类智能的技术的总称,绝非大家想象的那么可怕。人工智能技术的目标很简单——让软件能够学习、响应、进化、识别和自动化。什么是机器学习?机器学习(ML)算法是在数据集上训练的。这些算法能够通过经验和“学习”自我调整以提高输出。机器学习算法通常能够发现人类永远不会意识到的数据中的未知值、模式和联系。例如,在AIOps中,机器学习可以显着增强事件响应能力。机器学习是人工智能的一个子集。AIOps是如何运作的?要了解AIOps的工作原理,让我们首先看一个大多数开发团队可能都非常熟悉的示例。在当今高度复杂的系统中,无数团队很快迷失在未知变量和警报的噪音中。开发人员和工程师一次又一次地陷入信息困境,几乎不可能对每个警报、每个事件进行故障排除。由此产生的警报疲劳也导致真正紧急的警报被埋没和忽视。我们不可能派出一个拥有20年经验的优秀工程师专职筛选告警内容,这实在是严重的人才浪费。这时候,就轮到AIOps上场了。AIOps是一种新型工具,可将人工智能和机器学习的强大功能引入遥测数据,帮助团队快速评估数据内容、采取行动并减少对人工劳动的需求。总之,AIOps的主要职责在于数据智能化和数据丰富化。不能代替开发者的角色;相反,它节省了宝贵的时间,提高了信息的可观察性,最终帮助开发者创造出更完美的成品。AIOps与其他监控工具的区别AIOps可以为DevOps和站点可靠性工程团队提供丰富的洞察力和自动化支持,帮助他们快速发现和解决问题。智能元素的存在是AIOps平台与其他监控工具的核心区别。也正是这个关键因素,让AIOps能够在现代工作场景中发挥重要作用。大多数企业已经意识到其生产系统的复杂性在迅速增加。此外,软件功能的极大丰富也释放了新的增长机会,开始在提升客户体验、压制竞争对手等方面发挥更重要的作用。因此,开发人员承受着巨大的压力,需要通过在创纪录的时间内无错误地部署软件来快速解决未来的事件。机器学习和人工智能可以为随叫随到的团队提供必要的支持,以在快节奏的环境中识别问题、确定问题的优先级并快速排除故障和补救。AIOps平台还增强了现有事件管理团队和工作流程的运作方式,减少了平均解决时间(MTTR),减少了体力劳动,并最终为员工和最终用户带来了更好的体验。实践中的AIOpsAIOps的价值当然不止于噪声筛选。让我们看看AIOps工具可以使用AI、机器学习和自动化来增强事件响应过程的三种可能方式:第一,主动异常检测:AIOps工具可以自动检测环境中的异常并触发其他监控解决方案和团队协作工具,例如Slack,帮助开发人员识别未知变量的通知。二、事件关联丰富:AIOps工具可以将相关的告警、事件和对应的优先级进行关联,帮助我们快速聚焦核心问题;此外,AIOps可以使用堆栈中其他工具的历史数据或上下文信息来分析警报、事件丰富,指导团队高效地找到根本原因。目前,最先进的AIOps工具能够利用机器生成、基于时间的聚类、相似度算法等机器学习模型和人工生成的决策增强逻辑,帮助用户自动排除异常噪音或低优先级警报。第三,智能警报和通知:AIOps工具可以自动将事件数据路由到适当的事件响应个人或团队,从而节省宝贵的时间。特别是对于分布式自助服务团队,这种方式可以大大减少成员收到的嘈杂警报的数量,加快关键事件的数据传输效率,最终减少工作量。AIOps工具运行机器学习来评估来自事件管理和监控工具的数据,并根据过去的类似情况将问题移交给职能个人/团队或专门的技术专家。总结通过积极采用AIOps,SRE和DevOps团队有望更深入地了解问题的根本原因,快速缓解问题,减少警报疲劳,并确保团队能够专注于最有价值的工作——创造性和战略性思考。
