当前位置: 首页 > 科技观察

AIops中的人工智能

时间:2023-03-12 09:23:18 科技观察

今天的组织可以轻松找到并应用具有机器学习(ML)、自动化和人工智能(AI)功能的技术平台。一旦DevOps成为主流,它将促进流程、技术和IT文化,其中包括Cloudops、Dataops、Sysops和AIops。一些人怀疑将机器学习应用于IT运营是否可以提供业务和IT价值。有这个问题很正常,但不要感到惊讶。AIops是可能在2021年得到提升的DevOps功能之一。在过去十年中,IT环境变得更加复杂,包括公共云和私有云的使用、支持物联网(IoT)的边缘计算基础设施、机器学习在大型数据库、新集成、应用程序频繁部署、关键任务遗留系统和大量微服务上进行实验。许多变量存在于IT控制之外,例如安全事件、不同的最终用户计算配置和易变的应用程序使用模式。如果组织的工作是响应事件、解决应用程序问题、执行根本原因分析、诊断复杂的用户问题、验证操作风险、识别安全漏洞或预测计算成本,那么这将是一个充满挑战的环境。这就是AIops解决方案可以提供帮助的地方。以下是不同的解决方案如何通过数据清理、分析、机器学习和自动化来简化IT运营和推动业务发展。六家AIops解决方案提供商详细阐述和分析了AIops为业务和IT部门解决的问题,他们的解决方案中使用了哪些类型的机器学习算法,以及他们的产品如何支持自动化。Devo提供实时操作和安全可见性AIops可以帮助IT团队解决最终用户问题,DevoIT运营和可发现性高级总监PacoHuerta说。Devo的AI系统在大规模混合环境中提供自动化、全面的场景洞察,使运营能够在最终用户受到影响之前查明问题的确切原因。IT部门承受着持续的压力,Devo帮助他们快速找到问题的根源并评估风险。Devo采用各种开源工具和专有机器学习算法,包括时间序列异常检测和用于开发和部署模型的机器学习工作台。Devo的模型不断学习并快速适应。“全栈AIops可以帮助IT部门筛选庞大的数据集以发现和解决问题,”MicroFocus的AIops产品营销经理MichaelProcopio说,他负责发现和解决IT运营问题。今天的IT环境产生的数据多于人类可以处理的数据。虽然机器学习可以将数百个警报或数百万个日志文件缩减为操作人员可以轻松处理的几个问题,但自动化速度更快。解决这些问题的关键。我们称之为全栈AIOP,因为将两者结合起来提供了一种几乎不需要人工干预的问题解决方案。“MicroFocus的AIops解决方案包括OperationsBridge,它收集所有事件、指标和日志,包括来自200多种第三方工具和技术的系统补丁和合规性数据。然后映射服务地图、拓扑和依赖关系数据,以构建准确的业务服务模型。该平台利用无监督机器学习,包括聚类、回归、推理统计、自定义逻辑和季节性??算法。它还利用操作员反馈来提高系统准确性并指导未来的行动。Moogsoft增强IT运营人员的认知能力Moogsoft首席技术官WillCappelli强调,“IT运营需要采用AI技术,以跟上开发人员驱动的快速变化。现代IT系统表现出复杂的行为,其组件和连接拓扑在持续集成(CI)/持续交付(CD)频繁部署的不断变化的压力下不断变化。需要人工智能来理解自描述数据,包括现代IT系统生成的日志、事件记录和指标;预测问题和中断;支持对AI技术解释的信号所揭示的问题做出响应。Moogsoft的AI系统按顺序执行多项功能。它从日志文件和其他操作系统聚合的嘈杂背景中提取信息丰富的数据集。然后,它会在这些信息量很大的数据集中找到相关模式,并确定哪些相关是因果关系……最后,它有助于自动化响应。Cappelli指出,AIops将直接影响组织的收入和品牌声誉。当智能响应是机器人时,它可以减少影响客户和员工的事件的平均恢复时间(MTTR)。OpsRampCompanies帮助IT部门实现服务水平目标OpsRamp事件管理和自动化首席产品经理NeilPearson指出,AIops中的自动化可以帮助IT部门更好地执行工作,这对组织来说是一件好事。他说,“AIOps是各种人工智能技术的应用,包括机器学习、深度学习和机器人过程自动化(RPA),可以自动化复杂、劳动密集型和重复性的任务。它通常涉及从不同的领域提取大量数据。来源和不同的格式。我们专注于从最初的资源发现到问题解决的过程中检测异常、预测和防止重复出现的警报和事件。这使人们在更高的水平上工作,并帮助组织的业务更好地发展。“OpsRamp摄取并处理来自多个数据源的海量数据集,例如指标、日志、网络数据包和跟踪,以确定问题的根本原因。它使用深度学习和自然语言处理算法,通过提出建议来解决问题,从而消除噪音问题,以确保它们不会重复以协助运营。OpsRamp帮助IT设计自动响应策略,减少人工干预并根据业务影响确定问题的优先级。Resolve赋予敏捷、自主的IT运营能力ResolveCEO首席执行官VijayKurkal认为,“自我修复IT”可以成为现实,使用人工智能和自动化来消除问题和解决方案之间的循环。他说,“AIops工具可以快速识别现有或潜在的性能问题并发现异常。、确定问题的根本原因,甚至预测未来的问题,从而在业务受到影响之前触发主动补救措施。通过将AI洞察力与自动化相结合,组织可以最大限度地发挥这些技术的价值和潜力,并创建一个发现、分析、检测、预测和自动化的闭环,使组织更接近自我修复IT。“ResolveInsights可以自动发现应用程序和基础架构,生成丰富的拓扑图,并识别关键业务应用程序和基础架构之间的依赖关系。了解这些关系可以更轻松地进行故障排除,并有助于全面的IT管理,提供复杂的跨域环境的单一视图。此数据可以近乎实时地自动推送到配置管理数据库(CMDB),确保准确的库存信息并创建强大的IT服务管理(ITSM)基础。ResolveInsights利用许多机器学习算法,包括异常检测、事件模式识别和预测算法。它的目标是提高关键应用程序和基础设施的性能,最大化正常运行时间,并提供工作洞察力以增强客户和员工体验。Splunk帮助IT管理复杂的操作环境超越传统的运营模式,专注于数据驱动、拥抱自动化和致力于服务交付实践的模式。他说,“随着现代方法加速技术采用和参与全球电子市场,现代系统的复杂性太高以至于人们无法有效管理,传统的IT运营技术也跟不上需求。只有采用数据驱动的方法并应用高级算法处理、机器学习、人工智能、响应自动化和工作流编排,服务交付团队才能解决这些新的复杂问题。Splunk通过采用AIops应对这些挑战,为ITops、可观察性和安全性提供数据驱动的方法,以确保性能、可用??性、功能、稳定性并影响其业务和客户需求。“Splunk采用‘白盒’方法进行机器学习,并预先填充了30种算法,用于异常检测、分类、聚类、交叉验证、特征提取、预处理、回归和时间序列分析。它还具有-300+来自-learn、pandas、statsmodels、NumPy和SciPy库的开源Python算法。AIop是所有IT团队向前迈出的一大步当客户和员工升级问题时,人们知道他们必须让系统和应用程序监视器知道当重复发生的事件时类型出现时,组织有适当的剧本和标准操作程序来解决它们。在可能的情况下,可以构建脚本来重新启动Web服务器、清理数据库空间和归档旧文档。当今的规模、复杂性和服务期望要求IT加速这些程序,这就是AIops解决方案所要解决的问题。AIops平台集中和清理操作数据,使用机器学习来查明不同的问题,并提供专业的服务提供自动化解决方案的框架。其最终目标是提供更好的体验,减少工作量,并释放IT部门的精力来开展更有价值的业务。