当前位置: 首页 > 科技观察

企业纷纷上云 IT运维如何借力AI实现智能化_0

时间:2023-03-17 18:18:51 科技观察

企业上云IT运维如何利用AI实现智能IT系统越来越复杂。IT系统规模越大,对精细化运维管理的要求越高,运维采集指标越多,响应时间越短的要求也随之而来。面对海量的运维数据,以及对数据实时秒级的分析处理需求,传统的IT系统和模型越来越难以满足当前的运维需求。以往IT资源都是人工管理,需要人工定义系统网络架构、配置克隆虚拟机、配置OS、安装数据库等漫长的过程。传统运维压力大,跑路打火都累。必须求变,向自动化、平台化、智能化方向迈进。在IT服务管理方面,ITSM和自动化技术可以有效提高管理效率。ITSM中的自动化工具帮助企业更高效地改进管理任务,大大缩短应用发布流程,提高IT效率,提高对IT需求的响应速度,有效节省运维和开发人员的工作时间。在IT运维方面,Docker、OpenStack、Puppet等技术的普及,以及微服务、CI/CD、DevOps等概念的落地,迎来了自动化发展的小高潮操作和维护。综合来看,自动化运维平台有助于提升运维效率,减少因人工疏忽和流程操作失误导致的运维故障。重新定义IT运维随着企业业务互联网化进程的加快,新业务、新场景不断涌现,需要企业在IT架构调整上与之相适应,更多的发展需求应该放在需求实现上多于。企业的数字化程度越高,管理运维的难度就越大。技术世界逐渐催生出面向服务的软件架构和持续交付流程。同时,随着业务量的快速膨胀,大量的应用管理、持续交付、监控、稳定性、成本控制等非功能性应用也由面向服务的方式来构建和保障。永久系统需要一个专门的团队来做。这时候,运维的需求也在悄然发生变化。在这个过程中,云计算的发展改变了IT资源的供给方式,同时对运维管理的变革提出了新的要求。传统的网络、硬件和系统维护职责正在逐渐弱化,也迫使企业的重心从底层转移到应用和业务层面,现有的操作系??统和人员角色需要重新定位。AI赋能IT运维随着AI时代的到来,我们工作和生活中的一切都在被重新定义。企业正试图通过人工智能技术提高运维服务的有效性和可预见性,同时降低成本,实现业务转型。2016年,Gartner提出了AIOps的概念,并预测到2020年,AIOps的采用率将达到50%。简单来说,AIOps希望基于现有的运维数据(日志、监控信息、应用信息等),通过机器学习,进一步解决IT运维自动化无法解决的问题。AIOps作为一种将算法融入工具的运维新方式,可以帮助企业最大程度简化运维工作,将IT从耗时、易错的流程中解放出来。传统的IT运维管理工具更关注突发事件(即告警)、配置和性能,而AIOps更关注问题、分析和预测,两者相辅相成。有了AIOps,当IT存在隐患时,运维人员不需要等待系统发出故障告警。通过内置的机器学习算法和大数据技术,自动发现系统中的各种异常,实现从异常入手的故障诊断。发生的可能性、严重程度和影响取决于机器对数据的分析结果,以确定最佳应对方案。只有全面的数据才能做出科学的决策。很多时候,如果你看到的日志不完整,或者得到的监控数据不准确,你肯定会贸然做出决定。比如数据中心某条业务链路出现问题,是不是应该切换?数据是否仍然一致?这个时候,在没有确定的数据支持你的决策之前,你在做决定的时候会更加的不安和犹豫。从目前来看,百度、搜狗、阿里巴巴等国内互联网企业已经在探索和尝试AIOps,并取得了不错的效果。通过支持AIOps能力,平台可以提供更强的分析、调整和自我修复能力,进一步提升IT效率。如何从错综复杂的运维监控数据中得到我们需要的信息和结果,一句话,就是要区分和提炼。同时,为保证业务和SLA服务水平,及时响应问题,自动分析优化,精简处理流程,高效组合,将问题匹配到正确的场景,可以找到合适的人,并在第一时间完成正确的解决方案。机器学习需要大量数据进行训练。故障以各种形式出现。对故障的历史数据进行分类和标注,不断利用模式识别和数据训练机器识别和分析,让机器自动准确判断。基于数据和模型提升事件处理能力。一些工程师可以非常快速地处理许多事件。相反,对这个故障不熟悉的人可能要花很长时间。这就需要建立一个政策知识库供他人参考和学习,从而提高在类似场景下处理事件的能力。我们以数据中心的管理和运维为例。数据中心的运维主要包括配置管理和监控。运维人员每天要进行大量的模块维护操作。这个过程中的大部分程序都是通过人工操作完成的。.一方面,人的精力是有限的,不可能及时发现所有的故障;另一方面,在这个过程中出现人为错误的可能性是不可避免的。将人工智能应用到数据中心的管控中,通过机器学习模型进行精细化管理,可以实现智能运维的目标。谷歌可以说是最早将人工智能技术应用于数据中心管理的代表。它使用人工神经网络分析大型数据中心的运行,收集和汇总数据(如数据中心基础设施的功耗、达到一定冷却效果的用水量),分析和评估运行效率通过人工智能计算模型,提出相应的解决方案,提高数据中心的运行效率。结论AI赋能IT运维的目标是减少对人的依赖,逐渐信任机器,实现机器的自我判断、自我判断、自我决定。技术在不断进步,AI技术可以解决一些需要大量人力和时间才能解决的事情,但是AI并不是一个很纯粹的技术,它还需要结合具体的企业场景和业务,可以由计算和数据。一个真正有用的产品。AI下IT运维在企业的落地不是一蹴而就的,而是一个循序渐进、价值普及的过程。目前,IT运维已经处于变革的窗口期。可以预见,经过更高效、更平台化的实践,AIOps将为整个IT领域注入更多的新鲜感和活力。它将在未来继续发展壮大,成为全球趋势。权力的重要性!