作者简介顾黄亮,十年研发和运维经验,涵盖基础设施、应用架构、数据库、DevOps、互联网、电子商务、金融行业经验。专注于DevOps在企业中的应用与落地,致力于打造企业智能运维体系。参与了多项行业和国家标准的编写,《开源许可证使用指南(2018)》的起草人之一,国家标准《研发运营一体化(DevOps)能力成熟度模型》的起草人之一,《企业IT运维发展白皮书》的起草人之一。维修部负责人。前言在数据输出和变现的过程中,场景化是最终的载体,而运维数据的输出和变现能力最终取决于前期的数据建设和质量管理。在这篇文章中,我们针对运维领域的数据构建和管理进行了扩展,来描述运维数据是如何管理的。1、运维数据的实现过程运维数据的规模与企业规模、业务形态和运维能力有很大关系。运维能力越高的企业,运维管理的数据越多,运维数据变现效果越好。相应的,运维数据建设水平更高,通常采用前沿的大数据和AI技术作为载体,传递数据的价值。典型场景包括知识图谱、智能监控、动态阈值、根因分析、故障自愈等。对于规模小、业务形态相对单一、运维能力一般的企业,运维数据的实现能力较弱,更多的数据输出对场景的依赖性很强。所以现阶段,场景成为运维数据的唯一突破口。数据的被动采集、被动存储和被动消费的特点是数据碎片化、数据关联性弱。典型的场景化驱动主要是资源管理、基础设施监控、业务连续性保障和应急知识库。在运维数据变现的过程中,我们一般需要关注三个阶段,数据从小到大,从单维到多维,从内到外的覆盖阶段;数据处理由简单到复杂,技术由单一到多元化的阶段;场景从需求到规划,输出能力从浅到深,自动化到智能,大致概括如下。1、从数据获取渠道入手,初期由少到多,运维数据的来源仅限于运维方自身,如资源数据、监控数据、文本数据、日志数据等。随着数据源的接入,进入全覆盖那时,运维数据已经覆盖了业务运营数据、后台支撑数据、财务数据。需要注意的是,运维数据的获取离不开对运维数据输出的强依赖,即需要场景输出,所有数据的基础都必须建立在运维输出上和维修能力。2、数据处理能力决定了数据价值的范围,从内到外覆盖。说到这里,很多人可能会疑惑,这不就是大数据的作用吗?归根结底,大数据只是一种工具,而不是一种功能。因此,运维数据处理能力决定了数据聚合层的价值模型,也间接影响了数据输出的覆盖场景。这就是我们理解的运维数据中心。这期间重点是数据处理能力和数据推导能力。3、有价值的场景选择决定了数据的变现能力,变现能力由浅入深。在我们理解的变现过程中,其实就是最终的价值输出模型,最终会得到三个结果,优化、反馈和贡献值。因此,也必须遵循有价值的场景化选择,从运维内部优化开始,到信息化领域的度量反馈(在文章《建立数据指标体系,推动 DevOps 全链路度量闭环》中有详细讲解),最后到数据的贡献价值衍生系统,如智能运维、项目后评价系统、信息化成本审核、成本中心利润核算等。下图很容易理解。2、运维数据的管理做过数据项目的人都知道,数据项目的建设是一个循序渐进、不断优化的过程,不可能一蹴而就。运维数据的管理也是如此。与业务数据不同,运维数据更难查找、离散。一般来说,运维数据的管理一般要经历四个过程,可以简单概括为:发现数据、建立模型、连接数据、变现。1.数据查找在构建运维数据系统的过程中,查找数据是一件很头疼的事情。这与业务的数据系统有很大的不同。业务数据的管理多为前置目标驱动,而运维数据管理多为后置目标驱动,需要在数据发现阶段进行自上而下的数据梳理和调研。该特性与运维功能相关。在运维领域,安全、稳定、高效、低成本是运维的能力输出框架。前两者与数据低耦合,后两者与数据高耦合。参考数据资源普查的方法,由于运维输出场景的后期,只能采用自上而下的方法,而自上而下的方法一般采用IPR(InformationResourcePlanning)。IPR的描述如下。信息资源规划(InformationResourcePlanning,简称IRP)是指对本单位信息的收集、处理、传输和使用的统筹规划。其核心是运用先进的信息工程和数据管理理论和方法,通过统筹数据规划,奠定资源管理基础,推动实现集成应用开发,构建信息资源网络。这里使用运维语言来拆解。简单来说,按照运维数据的价值输出模型可以这样描述。我们也可以从“初态、终态、去向”三个维度来解读。在梳理运维数据范围的过程中,通常扩展到各种系统配置信息、系统阈值或动态阈值产生的复杂告警信息,以及各种系统定义的各种海量日志数据等。随着泛化运维能力的输出,开发和运维边界的模糊和融合,以及大数据技术的发展,运维数据和生产数据的边界不再那么清晰。数据属于运维数据的范畴,也是业务数据的重要组成部分。随着业务的发展,运维数据在阶段性过程中产生爆发式增长。不幸的是,运维数据的消费方式仍然是通过筒仓式的解决方案在不同的系统之间进行处理,主要展示给DevOps。或其他用户做出决定。例如,监控系统从获取监控数据开始,到向用户输出规则定义的告警信息结束;日志系统从获取和索引日志内容信息开始,到为用户提供复杂的搜索和展示内容结束。运维数据的价值挖掘受限于孤立的运维系统的处理能力和运维人员自身的“带宽”。所以,我们在通过IPR找数据的过程中,会形成一个误区。我们总是站在运维的角度去寻找数据,最后找到有头有尾的数据。下面我们通过一张简单的图来描述一下,如何查找数据。这个阶段通常是运维工具什么都用的阶段,自上而下的排序方式可以提供对现有数据资源的全面系统的理解。尤其是通过梳理数据功能域之间的交叉信息,可以更清楚地了解数据信息的来龙去脉,帮助我们掌握各种信息的来源,有效消除“信息孤岛”和数据冗余,控制唯一性数据的准确性保证了所获得信息的有效性。在查找数据的同时,还可以方便进一步基于工具的泄漏检测和优化。下图显示了一些常见的数据源。2.数据模型数据模型阶段体现在运维领域的数据识别。在传统的数据模型理论中,运维数据没有明确划分运营数据层、明细数据层、汇总数据层和应用数据层,这是由运维边界造成的。在模型构建的过程中,更多的是基于数据的特性来考虑,主要包括以下几点:运维数据的业务价值,比如偏向于业务连续性的运维数据。运维数据共享,该部分数据主要用于与业务系统共享数据,如组织数据、技术组件数据、框架配置数据等。运维数据的实体独立性主要体现在资产管理和容量管理上。运维数据唯一标识是运维数据形成网状拓扑的核心能力。一般以CMDB为基准,采用多节点连接和扩展的方式,如基于业务系统IP的南北向资产数据拓扑扩展。员工工号用来衡量东西方工程效率和人力效率。运维数据的长期有效性是运维数据模型的基本要素,主要用于数据基线、链路基线和容量成本基线。在模型阶段,由于运维数据的唯一性,污染严重,质量参差不齐,因此治理和验证的过程是一个难题。主要体现在运维数据的即时性强。一些基础设施故障会导致一系列系统级和业务级的故障。在业务复杂的情况下,这部分数据的污染更加动态和复杂。因此,模型需要具备一定的降噪和治理能力。3、数据接入与访问运维数据的接入主要是工具数据的接入。比较常见的数据来源是资产管理数据和运维自动化工具保留的数据,工具保留的数据有很多。数据的不确定性,如不同的数据存储方式、不同的数据标签、不同的数据定义、不同的数据管理方式,需要在接入层对数据进行处理和清洗。数据摄取是将数据从数据源系统收集到数据平台的过程。这个过程需要对接入的数据进行清洗、转换、映射、去重、合并、加载等一系列的数据加工处理,形成标准统一的主数据。常用的数据采集方式包括:(1)ETL抽取,利用ETL工具将数据从数据源系统采集到运维数据中心。(2)文件传输,采用文件传输的方式将文件中的数据导入到运维数据中心。(3)消息推送,使用消息从数据源系统采集数据到运维数据中心。(4)接口推送,采用接口方式将主要数据从数据源系统采集到运维数据中心。(5)内容爬虫一般用于WEB页面的数据爬取,适用于不留存数据的场景采集。运维数据的输出是将标准化的数据向下游系统分发共享的过程。数据提取过程中使用的技术与数据收集技术基本相同。在运维侧实现数据接入的过程中,需要根据不同的场景选择不同的集成方式。这里有几个大家比较关心的问题需要讨论一下。运维数据中心是否需要将CMDB、监控平台、流水线、持续交付、测量系统的数据整合在一起。这是运维中心的建设过程。遇到的第一个问题。数据接入过程实际上是一个多源运维数据导入过程,其中并不是所有的数据都有用,监控数据和日志平台就是典型的代表。这期间访问的运维数据往往存在大量的重复和冗余。以监控数据为例,同一个事件可能会导致大量重复的指标、告警、日志等,作者在实现过程中会更加贴近数据源头。及早过滤冗余,不仅节省了时间,也节省了冗余垃圾数据的存储和计算成本。因此,理想的解决方案是靠近数据源头进行实时数据处理,尽快进行降噪和聚合,完成自动模式发现、异常检测等算法,只将具有历史分析价值的数据传输到数据源端。用于历史分析的数据中心。分析。一般来说,如果我们用主数据和元数据的概念来方便理解,运维能力子域中的工具和系统保留的数据是主要的数据类别,而数据平台中的数据是元数据类别。关系从一维到多维的识别更多。回到数据采集的问题上,在实施过程中,CMDB、监控平台、流水线、持续交付、测量系统的数据仍然保持在原始状态,访问的数据保持按需访问。数据源的多维海量异构数据。4.数据货币化数据货币化是实现数据价值的唯一标准。不同于数据的商业化,运维数据的货币化主要依赖于数据的大众化使用。数据的知名度越高,黄金数据就越多,也可以称为核心数据资产。在运维领域,数据的变现主要包括以下几个方面。(1)整体协作,降本增效组织层面的能效和质量是DevOps价值输出的唯一标准。因此,端到端的管道交付、端到端的资源交付、端到端的安全输出,都是通过数据驱动的方式,实现端到端的价值交付。在此期间,需要统一运维数据标准,打通项目、需求、研发、测试、运维、资源等各个环节,大幅提升科技各个子领域的协同效率,减少因数据不一致而导致的数据传输和交换的通信成本。(2)数据驱动、智能决策在数据驱动阶段,通过数据反馈优化价值交付链流程中的问题和缺陷,通过对流程数据的持续收集和分析发现交付过程中的瓶颈。软件产品和用户的在线数据得到反馈并及时调整,通过结果数据评估团队的有效性。这体现了数据价值输出能力和决策有效性。(3)数据即服务和资产,通过数据的不断优化,提高数据共享和交换能力。另一方面,通过对数据进行标注和整合,结合各种场景输出,可以提供给数据使用部门,实现整个企业级的全球数据打通。3.小结随着运维的技术发展不断加快,功能的边界也逐渐模糊。不仅数据量级呈几何级数增长,业务连续性的容忍度也趋于收窄。因此,运维数据所凸显的价值输出能力进一步提升,数据的使用和管理给运维带来了新的困难和挑战,也推动了智能运维的产生和发展。,运维数据的质量管理。
