Meituan的住宿数据治理团队从事数据治理工作已有很多年了。从最初的被动,单点治理到后来的主动性和特殊治理,它已经发展到当前的系统和自动化治理。按照道路,他们不断积累和沉淀,他们一直在思考和实践。该团队已经取得了一些分阶段的结果,并被梅图恩(Meituan)的多个业务界所认可和肯定。该过程的经验和教训,我希望与您分享,并希望将一些新想法带给参与的学生在数据治理中。
Meituan住宿数据治理团队已经通过多年的计算和数据治理经验积累,并与业务发展阶段期间的数据治理需求相结合,逐渐将治理的管理从特殊,外观和问题驱动的治理转变为自动化和系统化。从标准化,数字化和系统的三个方向进行治理和实践。
自2014年推出以来,Meituan住宿业务已经发展了多年。它已逐渐从开发期到变化期的变化期。该业务已进入了以前的快速扩张阶段的相对稳定的开发阶段,并且操作方法已转换为精制操作。同时,对数据成本,效率,安全性和价值的要求也在增加。新要求。
另一方面,在住宿数据组的数据中心有多个业务线,例如住宿和票务度假。每个业务线路的业务线路都不同,业务生命周期不同,数据治理中的认知和经验积累是不同的。提高数据治理的效率和效果,以避免踏上坑。这需要更标准化,系统的和自动化数据治理。
早些时候,我们已经在数据治理中积累了一些积累和降水。上一个阶段主要从单点和被动治理变为主动和特殊治理。它仍然主要由问题驱动的治理和经验治理驱动。面对新的数据治理职责和要求,过去存在一些问题,主要包括以下方面。
治理认知有很大差异
治理方法不是标准
较低的治理效率,效果差
数据治理缺乏系统
从上面的背景中,我们在不同企业的生命周期阶段,我们面临着不同的需求以及数据构建和治理的挑战。同时,过去,由被动治理和问题驱动的更多特殊治理方法也相对落后。技术团队很难满足商业方在财务和业务支持方面的要求。
通过持续的学习和摘要经验,我们开始意识到数据治理是一个非常复杂的综合问题。只有通过构建标准业务数据治理系统,我们才能确保通过现状,目标制定,过程处理,过程标准来评估数据治理,从而有效地实施建筑的各个方面,治理监测管理,能力建设,实施效率,实施效率,实施效率,和效果评估。在治理系统化层面上,我们的理解和思维是。
为了响应数据管理和治理,我们希望建立诸如管理系统,方法系统,评估系统,标准系统和工具系统等核心功能的组合,并继续服务于数据治理的实施。这样可以将普通的电子商务公司类似,如果他们需要运营和服务客户,他们必须首先建立销售系统,产品系统,供应系统,物流系统,人类系统等。用户的主要目标。
我们的建筑思想是:以团队数据治理目标为核心方向,设计目标需求的相关功能组合以及实施过程实施过程中的反馈,不断迭代的改进,并最终实现了数据治理的愿景。
系统框架主要包括以下内容:
系统框架构建结果:业务数据治理系统框架是整体数据治理工作的顶级方案设计。该框架定义了业务线数据治理是什么,如何,做什么,要实现的工具。Latin对业务数据治理,标准化治理路径方法和组件的认识,并以有序有效的方式指导数据治理。
参考业务线数据标准化系统的各个组件的特征,我们通过标准化,基于数据和系统的标准化,基于数据治理系统的框架专门构建和操作数据治理系统框架。最后,获得了量化结果的结果。
数据治理的标准化是企业进行数据资产管理的关键突破和重要手段。一系列政策,法规和计划需要转变为标准和系统以有效地着陆。数据治理不仅有利于建立和改善各种数据管理工作机制和改善业务流程,而且有助于提高数据质量,确保数据安全合规性和数据值的发布。但是,在数据治理标准化过程中,我们经常面临以下三个问题:
从解决问题的角度来看,我们对数据开发过程进行了划分。通过前限制的思想,在监视期间以及之后的分析和评估,我们将组织缺乏流程规范,以实现数据治理中数据治理的标准过程规范。所有链接都被完全涵盖并进行了系统化的工具,以使其具有系统化的工具确保实施标准和标准。以下将介绍我们如何在数据治理标准化过程中解决上述问题。
4.1.1标准施工规格是建立数据治理构建的基础。为了应对不合理的构建和缺乏过程规范的问题,我们使用系统的构造思想将数据开发过程和数据治理过程与整体结构分开。以及整个过程数据治理的构建的相应规格:
4.1.2工具保证标准规格可视化标准和规格的共享,以前的技术团队在实际标准化过程中可能存在以下问题:
为了应对上述问题,我们重新汇总并清理现有文档并对其进行分类,补充文档缺乏文档,优化文档内容,并添加一个新的知识中心模块以生产知识系统的框架,保持统一在产品级别的进入和权限管理,并在同一时间段落控制发布过程,解决了诸如“无法找到”,“质量差”之类的问题,“没有权威”,例如“无法找到”,“质量差””和“没有权威”在实际着陆期间。
测试规格工具 - 盖西普炉在数据测试规范方面,通过Wiki维护了先前的数据测试规范,该规范无法限制每个人的实际执行过程,从而导致数据质量差和容易出现数据失败。数据开发过程,数据质量和业务满意度引起的数据故障,我们使用数据中心共同构建的ETL测试工具以及数据平台工具(Meituan Internal Tools-Gossip炉)来确保实施在SOP实施测试规范中,要求每个人都能完全测试,而不会影响测试测试的效率。数据治理问题将事先限制,反应后的问题量以及数据质量。该工具构建如下图所示:
在日常数据开发工作中,数据工程师将进行一些数据治理工作。
基于上述问题,我们已经开发了一种治理和效率工具工具自动化工具,总结了多个平台治理工具,并实施了数据治理标准化的实施步骤。政府行动以确保整个治理过程是标准的,并且效果正在监测,从而提高了治理和治理的效率。
例如,首先需要调查问题管理的经验并将其沉淀到SOP文档,然后在SOP文档中配置每个执行步骤,然后依次通过自动工具进行配置。DATA工程师只需要治理时,在一个界面中实现所有治理行动。下图是无效任务治理SOP和MEITUAN的自动化工具:
4.1.3标准化收入和施工经验数据治理标准化的标准化。我们在数据治理规范方面解决了团队的几个问题,并取得了明显的结果:
同时,在实际构造过程中,我们还概述了一些标准化的施工经验:
过去,当我们进行数据治理工作时,他们主要依靠经验判断。他们缺乏科学和定量的掌握。他们无法准确地认为治理问题的严重性。同时,他们无法准确评估治理收入的回收利用。因此,我们已经进行了数字工作来描述每个人的数据开发工作,并对整个数据开发工作进行准确的看法。
4.2.1数字建筑设计计划的构建:数据生命周期各个方面的数据生命周期中的业务对象方法的模拟和描述,元数据对象的抽象和描述以及构造在数据治理方案中应用的元数据数字仓库和治理指标系统
该框架主要包括元数据仓库,索引系统,数据资产级别以及基于基于元的仓库建立的各种数据应用程序。以下各章将介绍数字框架的核心数据内容:元数据仓库,索引系统和数据资源,等级。
4.2.2主要数据仓库构造元数据是描述数据的数据,包括数据资产类型,数据存储大小,数据出血保证金,数据生产过程和其他信息。信息有多种类型的信息,分散的分布和不完整的信息。里奇元数据可帮助我们快速理解团队数据资产,使数据资产更加准确和透明。提供对数据使用和价值释放的支持。
我们的建筑思想采用数据业务,业务数字和数字应用的想法来构建元数据仓库。
通过数据业务思想,我们的抽象业务领域,管理领域和技术领域三个主要主题域来描述组件位置对象,并将每个主题域细分以划分多个主题:
在元数字仓库的分层中,我们采用了最常见的四层架构分层,即源层,详细层,摘要层,应用程序层和尺寸信息。与商业数字仓库的设计方法不同,它从维度的维度组织数据,以避免从维度出发的设计过多。它只需要做出良好的划分和解耦。将数据与摘要层的分析习惯耦合数据以增强易用性。应用程序层按需创建所需的接口支持应用程序。
目前,我们已经完成了元数据仓库技术域,管理领域,管理域和业务领域的某些内容的构建,并支持指标系统和多个数据应用程序。在未来的Further补充和改进中。
4.2.2索引系统的构建的测量需要从多个方面进行考虑。只能完全解释一个指标。这需要一组逻辑和互连的数据指标来描述问题。在数据开发过程中,需要多个指标来监视和衡量数据开发团队在质量,安全性,效率和成本方面。
早些时候,住宿数据团队没有一个成熟且稳定的指标系统,该系统无法准确衡量该团队的业务支持和技术能力。全面衡量了业务数字仓库的构建中的各种问题。
建筑计划
指标系统的施工目标是监视团队的工作状态和变化趋势,该趋势需要涵盖工作的所有方面。因此,在构建指标系统时,我们通过不同观点,以免索引不知所措,因此指标适用于不同的使用方案:
建设性结果
目前,我们总共建立了112个技术,需求和故障指标,并全面涵盖了数据开发的所有方面:
元数据和指标系统的应用:
构造
在指标构建过程中,我们促进了以下经验:
4.2.3资产 - 级别的构建,随着业务的快速发展,负责团队的数据资产规模也在扩大。目前,该团队负责离线Hive Table 3000+,ETL生产任务2000+,以及人均人均生产任务负责ETL生产任务100+。面对增加数据资产,团队经理和数据工程师通常会遇到以下问题:
为了丰富元数据之间的关系和内容,以挖掘和确定更有价值的数据信息,并使用元数据能力来推动数据研究和开发以及操作和维护日常工作,并根据元数据仓库库塞森集级可以进行科学和有效地评估数据的重要性,还可以帮助改善数据质量分级监视方案,从而实现关键任务的关键保证。
下图是数据资产级别的一般计算过程。我们首先根据资产类型,资产水平结果以及采样验证结果的准确性确认影响因素影响因素的各种影响因素和权重值。
资产 - 级结构(数据表)下面是数据表资产级别构建的方法和流程图:
1)确定影响因素的确定和权重评估因素是资产水平计算中最关键的部分。合理的评估因素对于最终资产级别的准确性至关重要。根据实际数据开发的经验,可以知道数据表的重要性主要是有几个关键因素:
在确定影响因子之后,我们需要确定每个影响因子的重量值。我们使用层次分析方法来计算体重值(分层分析方法主要用于不确定性和决策 - 与大多数评估标准制定问题。计算步骤,您可以检查相关信息)。优势在于,研究对象被用作AA系统,根据分解,比较判断和全面的思维方法做出决策,计算过程是简单且实用的。
2)根据实际情况计算资产均衡的分数,并结合每个影响因子的重量值,您可以计算资产水平的最终分数。每个影响因子得分和相应的权重乘法。
3)资产级别的映射,我们将资产水平的最终得分达到L1?L5,L5是最高资产水平,而L1是最低资产水平。
目前,资产级别的应用程序方案(数据表)用于实施日常治理,这为数据分级治理提供了强大的起点:
4.3.1数据贝哌丁在标准化和数字化中的补充,我们的数据治理系统仍然面临许多问题:
为了应对上述问题,我们建立了数据Belle-Gordnance Center Ponfictance平台(内部产品),该平台实现了资产管理,问题分析监控,自动治理,过程跟踪,结果评估,全面覆盖数据的一站式公式治理,该平台可以有效地提高治理的质量和效率,并为提高数据质量做出强烈的支持。通过结合“管理+治理”的概念,从管理者的角度将数据,人类效应和其他问题进行全面监控和研发人员,以及资产全景,管理中心和治理中心的三个主要模块:
从经理+数据RD的角度开始,资产全景资产的角度,引入了当前数据的当前状态,以帮助业务线经理和数据RD实现数据资产的可视化,为管理人员提供技术管理的起点以及数据RD用于数据RDIMPROVE数据检测和数据使用效率。包括三个子模型:资产市场,资产目录和个人资产:
管理中心数据团队经理通常在每日团队管理时遇到两个问题:
管理中心主要从经理的角度处理,解决了如何管理它的问题,并为管理人员提供了通过经理注意的核心指标来监视团队状况,判断团队问题并协助管理决策的能力。”转变为“数据驱动的管理”。包括四个主要模块:经理的更广泛的市场,运营和维护管理,需求管理和团队管理:
在治理中心的日常数据治理过程中,负责人解决了以下疼痛点:
从负责人的角度来看,治理中心解决了如何治愈问题的问题,并通过问题评估和对问题的分析进行问题评估和对第一线治理工程师的分析提供了一种停滞的治理能力。治理工作的正常运作改善了该职位治理的质量和效率。包括四个主要模块:治理概述,分析和评估,问题治理和进度监控。
4.3.2 SOP自动化工具在日常数据治理过程中,每个团队都会促成几个SOP规范文档,以指导每个人管理问题并减少问题。
施工计划基于上述问题。我们已经开发了SOP自动化配置工具。SOP自动化工具是适合问题治理SOP的SOP配置工具。控制运动是通过工具配置的,以提高治理的效率,从而确保过程的质量和结果质量。目标是解决SOP规范文档在着陆过程中遇到的低执行效率问题以及该过程的问题。无法跟踪过程中的监视,并实现解决问题的能力。
SOP自动化工具主要包括基本的编队层,配置层和应用程序层。以下是产品架构图和产品接口:
SOP的实际操作步骤如下:
用户可以选择性地配置创建SOP后需要显示的数据信息,然后根据SOP执行步骤依次拖动各种基本组件,并填写执行操作以完成SOP配置工作。主要通过外部嵌入式形式提供。
通过SOP自动化工具,数据治理已经达到了解决问题过程的在线化和标准化问题,这很好地保证了治理效果并提高了治理的效率。自动化工具。通过比较,我们可以看到以前的工程师需要手动确认许多信息并跳到多个平台操作。现在只需要在一个接口上完成所有操作。土地减少了研发人员的工作量。
目前,我们的团队已经完成了7个主要治理领域的30多个指标的构建,并且都通过自动化工具实施了。将来,我们仍将探索其他特殊治理内容,并使用SOP自动化工具来协助携带消除数据治理。
4.3.3经验通过系统构建数据治理的经验摘要,我们总结了以下几点:
数据治理的实施过程是一组通用过程,我们根据业务数据治理的标准化框架进行了摘要在大多数治理方案中摘要解决问题。标准过程的优点是,更标准化的操作过程是数据治理工程师确保实施质量。该过程总共包含5个步骤:
在数据治理系统化方面的持续思考和实践之后,我们的系统框架基本上已经建立了。它在数据治理,数字化和系统的三个方向上取得了长足的进步。更重要的是,我们帮助业务解决了许多领域的实际问题,例如数据成本,安全性和效率。特别是在成本方面,预计该业务每年可以节省数百万美元的成本。
但是,与“理想的目的”相比,我们的工作仍然很遥远。Data治理系统化框架框架框架需要连续填充各种血液,骨骼和内脏的巨大“身体”。在监管过程的施工过程中,元数据 - 数字仓库,索引系统,资产等级等。连接人工判断和手动操作的场景。在下一步中,我们将在智能上做出努力(例如智能的元数据-Data服务,智能数据标准构建等),自动化(基于治理框架等的在线构建治理应用程序方案等)。
Wang Lei,Youyi,Wei Bin等都来自Meituan数据科学和平台部门。
阅读更多技术文章收藏的Meituan技术团队
前端|算法|数据|安全|操作和维护|ios |Android |测试
|在公共帐户菜单列对话框[2021商品],[2020 CARGO],[2019年商品],[2018年商品],[2017年商品]和其他关键字,您可以多年来查看Meituan技术团队的技术文章收集。
|本文由Meituan技术团队制作,其版权属于Meituan。WELCOME重印或将本文内容用于非商业目的,例如共享和交流。请指出“内容是从Meituan技术团队复制的”。本文不允许未经许可转载或使用它。对于任何商业行为,请发送电子邮件至tech@meituan.com申请授权。
原始:https://juejin.cn/post/7098724750234484750