当前位置: 首页 > 科技观察

为什么要把退休前的时间花在运维知识自动化系统上?

时间:2023-03-16 18:20:47 科技观察

我的团队从2003年开始系统优化,2003年应HPSERVICE的邀请加入他们的海尔系统优化团队,负责优化Oracle数据库。这是我第一次参与大型系统的优化。即便是在那个时候,我也不知道从哪里入手优化一个大型的售后服务体系。带了一本李维斯的书,去青岛参加了这个优化项目。通过这个项目,我对Oracle数据库优化有了初步的了解。后来,我帮助HP完成了华为SCM系统采用的CAF平台的性能评估,并建议决策层及时停止项目,以免造成更大的资金浪费,因为项目无法再优化。后来HP采纳了我的建议,关闭了基于CAF平台的项目。华为还重新选择了OracleEBS作为SCM系统和ERP系统的基础。从那以后,我们的团队越做越大,做的优化项目越来越多,培养了一批系统优化方面的专家。2011年,我们开始帮助国家电网进行系统优化。在专家的带领下,前几个项目取得了特别好的成绩。客户希望我们扩大优化范围,并制定了一个需要近百名DBA的大型优化项目。我们从众多合作伙伴中招募了数十名DBA参与到这个项目中。为了保证项目质量,我们对整个团队进行了多次强化培训。但最终,这个项目的效果并不理想。主要原因是DBA们的能力参差不齐,大部分没有参与过大型的优化项目。从那个项目开始,我也一直在思考传统运维模式依赖人和专家的问题,希望找到一种方法,让专家的经验发挥更大的作用。这就是我开发运维知识自动化系统D-SMART的初衷。构建知识自动化系统,需要提高操作的数字化程度。而传统行业的IT运维数字化程度很低。这有几个主要原因。资源有限:很多企业可能没有足够的资源投入研发和实施智能运维系统,或者可能认为将资源投入到其他领域更能获得回报。文化因素:一些企业可能更愿意依赖人类经验而不是自动化系统,这可能是因为他们对自动化系统缺乏信任,或者他们可能认为专家判断在紧急情况下比机器更可靠。技术局限:部分企业可能缺乏支持智能运维系统的必要技术基础设施,可能需要高成本投资升级设备和系统。意识不足:一些组织可能没有意识到数字化运营的潜在好处,或者可能没有足够的知识和理解如何实施数字化运营。虽然传统行业对运维数字化存在种种认知上的不足,但随着技术的发展和数字化重要性的日益提高,智能运维将成为未来信息系统运维的趋势和必然方向.反思我们多年来在系统优化和运维方面的工作经验,技术人员经验不足是导致优化效果不佳的重要因素。优化需要专门的知识和技能,而不仅仅是经验。可能需要更系统的培训,以确保所有参与优化的人员都具备必要的技能和知识。此外,优化工作的效果还受到系统设计、数据质量和优化工作过程等诸多因素的影响。随着技术的不断发展,现在出现了很多智能算法和方法,可以大大提高操作和维护的效率并减少人为错误。通过运维知识自动化工具,提供智能分析和自动化运维,帮助DBA更好地管理和优化系统。如果企业资源充足,可以考虑引入这些工具和系统,提高运维效率。“运维知识自动化系统”结合大数据分析、人工智能等技术,结合专家经验和工作积累,构建完善的运维知识体系,助力提升运维效率和质量。维修工作。“运维知识自动化系统”通过监控指标体系、健康模型、运维知识图谱、异常检测算法等技术,自动分析和解决系统性能问题,同时提供智能优化建议和决策支持为企业的运维工作提供了强有力的支持。其实D-SMART系统开发最重要的目的就是总结我们团队20多年在IT运维和系统优化方面的经验,让团队中的专家把这些年积累的经验转化出来进入自动化实施数字知识库。并且通过知识库的不断迭代,运维知识可以在平台中不断沉淀和积累,从而不断提升自动化分析能力。这套系统的开发不仅仅依靠研发团队,知识工具的开发完全由DBA完成,没有普通运维人员的帮助。这是因为普通研发人员不懂IT运维,不懂数据库,不懂性能优化。只有做过运维工作的DBA,才能更准确地将专家的想法转化为自动化工具。D-SMART系统的出发点是指标体系。我认为索引是专家经验的一部分,是非常重要的一部分。经过专家认知后的指标才是可以充分解读的指标。目前很多数据库监控软件提供的很多指标都无法被运维人员正确解读。即使这些指标异常,也不一定能发现,或者即使发现了异常指标,也无法感知系统哪里出了问题。专家整理的指标数据单一,专家可解读,因此每个指标都会由专家标注,并赋予特定的标签。D-SMART的第二步是完成指标的精准采集。准确采集各项指标的数据对于智能运维系统来说非常关键。确保每条数据准确反映数据库的真实状态至关重要。很多数据收集起来之后,需要进行处理,才能作为一个指标。这些处理算法也反映了专家的经验。通过这一步,D-SMART系统不断获取数据库运行状态的数字模型。第三步,对采集到的指标和日志数据进行自动建模分析。我们使用健康模型来判断数据库是否正常运行,是否存在风险;使用性能模型了解数据库的整体性能状态;使用负载模型了解数据库当前的负载情况;利用故障模型发现数据库中可能存在的隐患,及时报警。第四步,利用采集到的数据,自动完成各种巡检任务。例如在日常巡检中,系统会在每天午夜时分自动分析前一天采集的数据,找出风险隐患,并生成每日巡检报告。每月或每周可自定义任务,自动分析近期采集的数据并生成巡检报告。这种检查可以分析全面的数据,比传统的人工采集数据、人工分析的方法具有更丰富的数据。通过自动分析的算法也更高效。利用这些数据,还可以做很多有价值的分析工作,比如容量预测、性能优化、专项审计等。同时,利用标准化的指标体系,我们还可以构建一线运维与二三线运维之间的数字化沟通。通过完善的索引集,尽可能全面地为三线运维提供数据库运行的全景视图。在现场,专家可以了解世界的一切。前段时间,80多岁的妈妈要给我过生日。她在外面跑了十多年,一直没有生孩子。当我把蜡烛点进去的时候,我才发现我已经54岁了,退休的日子屈指可数了。我想趁我现在还能做点什么的时候,把这些年积累的经验尽量数字化,留着,这样才不会后悔。