当前位置: 首页 > 科技观察

WatsonAIOps-释放AI的力量,将IT运营效率和安全性提升到一个新的水平

时间:2023-03-14 10:28:25 科技观察

对于大多数依赖IT系统来支持关键任务业务应用程序的企业来说,信息技术(IT)运营管理是一个令人头疼的问题。尽管有良好的意图、巧妙的设计和良好的开发实践,部署在为关键任务应用程序服务的企业中的软件和硬件系统很容易发生中断,每年造成数百万美元的损失。劳动力和收入的损失,以及客户的不满。为了更准确地预测和响应IT停机时间,IT团队着手筛选从拓扑、日志、票证和警报等来源中提取的数据。但即使使用这些不同的数据源和脱节的工具,团队仍然无法从单一的共享视图中解决中断问题。幸运的是,IBMCloudPakforWatsonAIOps可以为您完成这一切!日志异常预测WatsonAIOps最新的日志异常检测技术,多项专利正在申请中,自动解析来自Splunk、Humio、LogDNA、Logstash等日志聚合工具的IT应用和基础设施日志,实时自动检测异常。这比基于阈值或错误字符串匹配类型的传统警报技术快得多,大大减少了诊断事件的平均时间。我们使用深度学习算法在日志解析过程中从日志中提取特征并进行异常预测。用户不必设置静态阈值或手动规则来检测异常。它积极让IT运营人员参与诊断异常和解决事件。此外,它还解释了通过您选择的IT工具集揭示的洞察力,因此IT运营可以在未来自动解决相同类型的事件。指标异常预测WatsonAIOps基于指标的异常检测技术分析来自各种系统(例如NewRelic、AppDynamics和SolarWinds)的指标数据,以自动了解和检测整个企业指标正常行为中的异常情况。它采用一组经过验证的时间序列算法来捕捉季节性因素和重要趋势,并进行预测。事件分组事件表明IT运营环境中发生了一些值得注意的事情。例如,应用程序不可用或磁盘容量已满/空间不足等。事件分组和分类的目的是帮助IT运营经理减少分心,让他们专注于一些需要及时关注的重要事件。WatsonAIOps使用多种算法(例如时间、空间和关联规则挖掘)对从指标、日志和票证中检测到的异常进行分组,从而实现事件分组。静态和动态拓扑管理应用程序和网络拓扑是指显示企业中不同关键任务应用程序之间连接的地图或图表。静态拓扑是指建立在上述之上的地图,其中部署了应用程序和基础设施组件信息。相比之下,动态拓扑是指动态映射,它在运行时随着环境的变化捕获资源及其关系,并近乎实时地提供相同的可见性。通过使用WatsonAIOps中的拓扑管理器,您可以将当前拓扑与历史拓扑进行比较,以回答诸如“发生了什么?”之类的问题。和“发生了什么事?”它可以帮助您调查导致事件发生的详细信息,并查看拓扑(和状态)随时间的变化。此外,可以拓扑确定故障位置。故障定位和blastradius实体提及是在异常日志、警报、票证和事件中引用的资源名称(例如,服务或应用程序组件名称、服务器名称、服务器IP地址、podID、节点ID等)。对事件进行分组后,提取异常日志、指标、警报和事件中的实体提及。拓扑资源可用于解决这些实体,以便发现问题并将已识别的实体放置在与发现实体提及的时间相匹配的相应动态拓扑实例上。通过遍历应用程序、基础设施和网络层中的拓扑图,我们能够确定受影响的组件,称为爆炸半径。事件解决WatsonAIOps连接到ServiceNow等工具来提取和挖掘以前的事件票据数据,为当前诊断的问题提供及时和相关的最佳行动建议。当前事件特征可用于查询索引工单数据,不仅可以搜索和检索最重要的相关先前事件记录,还可以从每个相关记录中提取重要的实体和操作(又名名词加动词)短语,以便SRE轻松并快速理解建议的操作。我们应用各种自然语言处理技术来提取实体和动作短语,包括基于规则的系统。提供见解和实施操作在WatsonAIOps中,上述所有见解都是通过ChatOps和仪表板提供的。实时洞察通过ChatOps直接传送到SRE工作的地方。除了探索证据以获取见解之外,ChatOps还支持与其他协作者进行交互,以共享策划的事件解决建议。借助ChatOps,SRE可以启动日志、指标和票证监控工具以获取更多详细信息。同样,SRE也可以启动交互式仪表板来详细探索事件、事件组、指标异常和拓扑。然后可以通过运行手册执行自动运行适用的操作/运行手册。关于AI模型生命周期管理的说明WatsonAIOps采用一组具有代表性的指标、日志和票证数据来训练和构建无监督模型。这些模型被设置为通过使用来自环境的最新数据不断学习,并根据用户反馈进行改进。为了赢得信任,所有人工智能模型都具有透明和可解释的特性,在人工智能预测和模型中提供信任和透明度仍然是全球企业最关心的问题。WatsonAIOps中的AI管道。WatsonAIOps下一步将走向何方?在下一代WatsonAIOps解决方案中,我们设想了一个IT运营环境,它不仅功能齐全、可观察、自我感知,而且自动化和自主。AIOps解决方案不仅可以帮助以反应模式解决问题,还可以通过从一开始就设计开发、安全和运营(DevSecOps)生命周期活动以有效运行来预防问题发生。例如,智能检查和关卡可以防止有风险的部署进入生产阶段,防止未充分测试的代码模块和具有危险安全漏洞的代码进入部署阶段。我们迫不及待地想塑造未来,并邀请您加入我们的旅程。了解有关IBM的更多信息:http://cloud.51cto.com/act/ibm2021q3/cloud#p2