因为疫情管控的问题,从去年下半年开始,与客户面对面的交流就减少了很多。如果你做产品软件,如果你和客户分开了,你就得走弯路。我们也是如此。D-SMART最初的产品定位是知识自动化。最初的想法是通过专家经验的梳理和数字化,将其变成一个自动化的工具。不过随着这些年AIOPS概念的兴起,好像没有AIOPS了。侧面好像不够高。在我们的产品设计中,我们用专家的经验来解决80%甚至90%的运维人员日常遇到的问题。如果我们发现没有涉及到的新知识,我们会快速梳理和更新知识库。随着用户群体的扩大和用户使用越来越广泛,这个比例可以逐渐提高。近年来,知识库积累了2000多个知识点和数百个故障模型。在客户目前的使用中,几乎涵盖了他们日常运维故障和诊断分析的所有场景。当然,一个新用户的覆盖率不可能这么高。当用户遇到专家几次都没有解决的问题时,智能诊断就起到了很好的作用。通过智能诊断,结合专家经验,快速确定诊断方向,我们很快就帮助用户定位了问题。随着几次成功的应用,我对这些智能诊断工具痴迷不已,不断优化运维知识图谱,以获得更准确的诊断结果。甚至有一段时间,我们甚至觉得以后不需要再花大力气去编写专家知识点工具了。我们只需要不断优化运维知识图谱,利用低代码泛路由知识点不断优化诊断工具即可。我与高级最终用户的最后几次会议让我耳光。前几天与客户交流D-SMART产品时,通过智能诊断工具和专家诊断工具演示了某系统告警的诊断效果。针对本系统的隐患预警,提供三种工具,一种是通用数据库状态检查工具“问题分析”,一种是智能诊断工具“智能指标分析”,一种是专家知识点工具。我们来看看智能指标分析工具的诊断结果:智能指标分析发现系统存在的主要问题是高并发、应用中的TOPSQL、IO性能问题、REDO/配置的一些问题数据库缓存。大方向是准确的,但还是有些笼统。对我来说,这个分??析结论很有帮助,可以据此做出下一步的判断。在智能诊断工具推荐的下钻工具中,还有专家诊断路径提供的知识点工具。如果我们不使用智能诊断工具,而是直接使用专家知识点工具呢?专家知识点工具由运维专家整理,根据专家经验分析数据得出分析结论。本次分析给出了远比智能分析工具更加明确的分析数据和诊断分析结论。提交过于频繁,redovolume过大,LOGBUFFER配置不合理等问题都直接指出来了。同时在分析的过程中也发现数据库IO存在性能问题,所以最后给出了一个drill-down诊断工具的链接。单击此链接执行向下钻取分析。数据库IO分析工具确认IO问题的具体方面,同时给出服务器IO分析的drill-down建议。OSIO诊断工具确定后端存储的IO性能不足是导致数据库IO问题的主要原因。至此,诊断分析工作完成,基本找到了导致问题的主要因素。智能诊断工具发现的问题比较全面,基本方向基本准确。专家工具更准确、更直接地发现问题,运维人员可以直接使用来优化系统。客户最后告诉我,他们最需要的是专家诊断工具给出的诊断结论。这些宝贵的专家经验可以直接帮助他们解决生产一线的问题。第二天我和另一个客户交流,也演示了这个工具。客户数学功底深厚,对智能诊断很感兴趣,我们聊得很好。只是当我最后问他哪个对他们更有用,专家工具还是智能工具时,他说他们需要专家工具。因为虽然智能工具可以给出很好的指示,但是他们的现场运维人员可能根本看不懂这些内容。虽然后面提供了那么多的下钻分析工具,但是没有专家工具直接有效。回来后,我想了很久,也发现了自己这半年多来思想上的误区。智能诊断工具对我来说很有效,但并不代表对一线运维有很大的帮助,因为一线运维人员大多不能很好地理解诊断结论。目前绝大多数AIOPS也是如此。笼统的定位可能很准确,可以更准确的找出问题出在哪里,但是不能很准确的描述问题,追根溯源。这就是AIOPS的最后一公里问题。日前在与客户交流运维工具时,一位用过AIOPS系统的用户表示:“智能运维工具的结论是给专家看的,不是给一般运维人员看的。”那时,我还没有把这句话太当回事。这几天想想这句话,觉得很有道理。AIOPS的最后一公里是专家工具,这是我这几天想来想去得出的结论。单靠AIOPS的分析结论,对于一线运维来说是不够的。在AIOPS的归根结底分析中,必须引入对专家知识点进行下钻或确认的能力,才能更准确地定位问题,为一线运维提供帮助。.智能诊断工具可以让专家在分析问题时更专注于问题发现和总结分析,将大量的数据处理和计算工作自动化。因此,它可以在知识发现和知识整理方面发挥巨大的作用,但是作为一线运维工具,效果可能不是很好。这也是很多用户使用AIOPS工具后的共同感受。坚持知识自动化的方向,应该是为一线运维提供有力武器的正确方向。用专家知识解决80%的问题,用智能工具为剩下的20%的问题指明方向,这样的组合或许才是未来。D-SMART发展的重要思想。2000多个知识点是不够的。我们需要更多更快的工具来积累知识点。使用生态协作是一个很好的方式。随着下个月社区版本的发布,我们也会发布这方面的生态计划。
