当前位置: 首页 > 科技观察

解密AIOps:TechNeo第十四期技术沙龙精彩回顾

时间:2023-03-21 10:29:34 科技观察

运维领域的数据庞大而复杂。如何开辟一条新的道路,是很多运维人员都在探索和思考的事情。随着AI技术在各应用领域的落地与实践,IT运维也将迎来智能运维新时代。算法的效率提升了AIOps的价值。通过不断学习,智能运维将使运维人员从复杂的告警和噪音中解放出来。那么,基于算法的IT运维与自动化运维有什么区别呢?现阶段运维中哪些痛点适合引入人工智能技术?如何加速落地?8月26日下午,以“TechNeo”为主题的第十四期技术沙龙活动在北京举行,进一步拓宽运维/开发人员的运维思路,激发创新能力。本次沙龙活动,邀请了清华大学计算机系副教授、智能运维算法专家裴丹先生、搜狗SRE负责人黄鑫先生、京东金融高级架构师沈建林先生等进行了分享。通过基于算法的IT运维实践和探索,与运维/开发者共同探讨全新的AIOps实现方式,开启智能运维新时代。从报警到预警——如何有效提升SLO活动,第一位分享的讲师是搜狗SRE负责人黄鑫老师。一开始,他提出了如何建立SLO,让运维工作可以进行评估?在整个分享过程中,黄鑫老师将整个过程分为五个部分:第一是让业务线信任,第二是通过了解业务需求明确稳定性要求,第三是避免不可抗力,第四,根据需要选择监控系统。第五,数据至上,不计较一城一池的得失。对于预警系统的实现,黄鑫老师分享了以下五种方法:信息生成与采集实时处理数据清洗与规则库的管理数据故障前报警,对用户无意义预警系统在framework***中,黄鑫老师还与在场的运维开发人员就运维准入门槛、故障自动恢复、未来展望进行了交流。如何实现智能运维接下来,清华大学计算机系副教授、智能运维算法专家裴丹教授将与大家分享如何实现智能运维。演讲伊始,裴丹教授通过运维大背景介绍了通用智能运维的关键技术,旨在让最先进的智能运维技术惠及所有企业。裴丹教授认为,智能运维普及化的解决方案在于数据、算法、算力和人才。第二部分是对智能运维中的关键技术进行分解定义,通过分解关键技术定义科研问题。裴丹老师指出的研究问题如下:***:输入清晰,数据可用;第二:输出清晰,输出目标可行;第三:高层技术路线图;第四:参考文献;第五:非智能运维领域的学术界可以理解并解决。最后,裴丹教授还指出,Gartner报告中对智能运维的描述过于宽泛。如何做好智能运维?裴丹教授认为,机器学习本身有很多成熟的算法和系统,也有大量优秀的开源工具。如果你成功地将机器学习应用到运维中,你需要数据、标签数据和应用三个方面的支持。数据:互联网应用本身就有海量的日志。存储需要优化。数据不够,需要独立生成。标注数据:日常运维工作都会产生标注数据。比如发生事故后,运维工程师会记录这个过程,这个过程会反馈给系统,进而提升运维水平。应用:运维工程师是智能运维系统的用户。用户在使用过程中发现的问题,可以对智能系统的优化起到积极的作用。***裴丹教授在与百度运维、搜索部门合作分享的基础上,通过了三个智能运维案例。第一个案例是基于机器学习的KPI自动化异常检测。上图为运维人员判断kpi曲线异常并标注出来,系统学习标注的特征数据。(典型的监督学习),这里需要高效的标注工具来节省运维人员的时间:比如拖动、放大等***,裴丹教授分享了搭建KPI异常检测系统的相关实践和挑战及相关解决方案。人肉运维进阶***京东金融高级架构师沉建林老师分享了人肉运维进阶内容。开篇,沈建林老师通过运维的理想与实现,谈了他对运维工作的看法,然后又通过服务监控的使命切入了本次分享的主题。在服务监控的设计原则上,沈建林先生将其分为六个部分,按照微内核、乐观策略、零入侵、约定优于配置、动态路由、集中控制的原则进行设计。在技??术实现内容分享的第三部分,沈建林老师对比了日志采集方案、分布式服务跟踪的挑战、SGM整体技术架构、SGMAgent静态架构、SGMAgent动态架构,SGMAgent的采集内容、SGM的扩展方法等技术手段,解决了从人肉运维到高级的技术实现方法。分享结束后,参会运维/开发人员与分享嘉宾就当前运维技术的新概念、框架、思路,以及当前工作中遇到的一些问题,以及自己的疑惑进行了交流以及对嘉宾分享内容的想法,学习,得到客人的指导和建议。TechNeo技术沙龙是2016年开始定期举办的面向IT技术人员的线下交流活动,目前仅限北京地区。周期是一个月一次。每期聚焦一个话题,涵盖大数据、云计算、机器学习、物联网等技术领域。