当前位置: 首页 > 科技观察

阿里巴巴淘宝模式治理阶段性分享

时间:2023-03-22 00:18:53 科技观察

作者|简晓阿里淘宝数据系统经过多年发展,通过丰富的数据和产品支撑复杂的业务场景,在数据领域取得了非常大的领先优势。随着数据规模越来越大,开发人员也越来越多。阿里大数据体系规范虽然有统一管理,但由于产品端缺乏有效的模型设计和管控,在模型标准化、应用层效率、公共层可复用性等方面逐渐出现问题变得突出。存储成本增加、效率降低、规范弱化、数据使用难度增加、运维负担增加等。为了解决这些问题,我们开展了淘宝系统专项模型治理工程,追求最终目标数据服务业务的同时降本增效。参与团队:数据技术与产品部-大淘部数据组数据技术与产品部-数据安全生产平台&计算平台事业部-DataWorks计算平台事业部-产品与解决方案-DataWorksPAI产品组1.数据状态为了更好的分析目前淘宝部的数据问题,我们进行了详细的数据分析,首先是数据化。(整个问题分析有详细的数据支撑,涉及数据安全,所以只抽象出问题,不展示具体的数据细节)。1规范性问题表命名不规范,缺乏管控:随着数据量的增加,淘宝系大量表存在大量不遵循阿里大数据体系的命名情况,难以管控.2通用层复用性问题通用层表的复用性不高:通用层表的下游引用数小于2;通用层建设不足或通用层不足:cdm参考下降,ads参考上升;很多ads表的共同逻辑没有沉没:ads表重复代码多,字段相似度高;3应用层效率问题临时表较多,影响数据管理:TDDL临时表、PAI临时表、机器临时表、压测临时表等较多;各团队公用层表分布不合理:多个团队分散;很多广告表的共同逻辑还没有沉没;一些ads表在表层依赖很深:很多ads表在应用层深度超过10层;应用层的跨集市依赖问题很明显:不同集市之间的广告相互依赖,不仅影响数据的稳定性,而且数据的准确性也难以保证;有大量的通用层表可以传输:不同团队的通用层数据与淘宝的数据混合;表人员分布不均衡:表主管理的表数分布很不均匀,有的表主只有几十张表,有的表主有几千张表;2、问题分析通过对当前数据问题的数字化,我们发现问题涉及数据评价、建设、管理、使用的各个环节。点评:缺乏统一的数据评价体系。过去,数据问题的发现主要通过专家经验、开发利用环节发现、离散数据分析等方式获得,缺乏统一的数字化评价体系。有多少数据?不同层级的数据分布情况如何?表的命名标准是怎样的?表的复用性如何?应该评估哪些指标?简:基于对数据问题的分析,我们发现:在通用层统一构建和治理的时间段,数据在标准化、可重用性、链路复杂度、使用效率等方面表现更好。但在缺乏统一建设和治理的情况下,数据在各个方面都表现不佳。原因是:我们有一套阿里大数据系统规范,但是我们没有一套涵盖设计、审查、开发、控制、治理的建模和开发产品。管理:数据建设完成后,没有对数据的成本、可重用性、效率、健康度进行有效管理,通常依赖于集中治理、专项治理或推送治理。成本高,迭代慢。同时,也存在表管理分配不均的问题。一些业主承担了大量的管理和运维工作,交接后数据难以维护,造成数据使用困难。使用:数据最终是为了使用。根据数据分析和调查问卷,普遍存在以下问题:找号难、不会用、不会用。这样一来,除了一些非常核心的模型数据外,很多开发者宁愿重新开发,也不愿花费大量精力去查找和理解数据,造成恶性循环。3.解决方案针对问题的分析,我们确定了以下目标:模型数字化:构建一套通用的淘宝模型评估体系,能够从多个维度清晰评估当前数据的健康度,为问题数据提供改进建议。提升效率的公共模型下沉:定义清晰的公共层数据下沉标准,可以明确定义哪些数据应该沉淀到通用层,及时沉淀需要沉淀的数据。产品化:通过共建,开发出一套涵盖设计、评审、开发、控制、治理的建模和开发产品。日常治理:模型健康的日常监控和治理的优化。发现数据,提高效率:通过共建提高数据检索效率和推荐准确率,将核心数据展示在数据相册中。为了实现上述目标,我们进行了模型治理的整体设计:1.DataWorks共建DataWorks基于MaxCompute/EMR/Hologres等大数据计算引擎,提供专业、高效、安全、可靠的一站式大数据开发治理平台。通过与DataWorks团队深度共建,利用淘宝部多年积累的数据经验,提供输入和DataWorks强大的产品开发能力,升级智能建模、开发助手、数据地图等功能。实现数据设计、开发、管控,用全链路产品化解决长期存在的数据难题。DataWorks智能数据建模目前,DataWorks智能数据建模产品已完成数仓规划、数据标准、维度建模、数据指标四大产品模块的主要产品功能迭代,具备逆向建模、正向可视化建模、excel建模、代码建模等产品能力,并在2021云栖大会上完成了DataWorks智能数据建模产品新功能的重磅发布。新发布的DataWorks智能数据建模产品核心产品功能主要包括以下内容:数据仓库规划:支持元素业务(如数据域、数据集市等)定制:支持数据仓库规范的业务定制,如作为各级表名的规范定义;支持建模空间,支持建立建模空间与数据研发空间的关系,满足淘宝系统多业务共享数据规范对数据模型统筹管理的需求。维度建模:支持对数据仓库中已有的物理表进行逆向建模,解决淘宝系统中已有物理表的冷启动问题。支持维表、明细表、轻汇总表和应用层表的正向建模,支持可视化建模、excel文件导入模型和代码建模三种方式。正向可视化建模产品功能借鉴了淘宝系建模同学积累的经典建模理论,依托MaxCompute的优势,快速复制MC中现有物理表的表结构,支持基于维度字段的冗余现有领域。另外汇总表和应用层表可以快速引用创建的索引生成模型表字段。正向建模excel文件导入模型将大数据系学生多年积累的经典模型excel模板产品化,满足一些习惯excel建模的同学的建模需求。产品功能的正演建模大大提高了建模效率。设计的模型支持模型审核和物理表发布到MaxCompute、Hologres等五种引擎。模型的成功发布,实现了与DataStuido(数据开发)的对接,支持自动生成ETL框架代码。数据开发的同学只需要在这段代码的基础上补充业务逻辑代码即可。该功能在一定程度上改善了数据开发。学生研发效率;以上产品功能可以很好的解决模型构建标准化和效率提升的目的。数据仓库规划维度建模开发助手开发助手可以在代码开发过程中进行权限提醒、发布控制、临时表自动构建等功能。2.模型评分模型评分逻辑模型评分我们以数字市场的形式在内部展示模型评分评价,并通过治理跳转直接跳转到相应的产品页面进行操作,并给出相应的治理建议。为了更好的实现复用,模型点支持快速配置接入。只要提供项目列表,就可以通过修改配置快速访问对应BU的数据,生成表级、所有者级、BU级模型点和治理动作。样板市场治理项采用全链路血缘关系和标签化能力,可以更精准地实现精准治理。3.找数据提高效率找数据提高效率:目前数据地图上线了团队常用表,猜你会用,热门浏览,热门阅读,数据相册,搜索优化,表描述升级等。表描述功能已经完成升级;多人协作维护,数据相册展示修改,收藏笔记发布,相册添加使用说明。对于查找数字、使用数字和维护数据具有重要意义。【搜索推荐】搜索结果过滤搜索结果左侧增强过滤条件,揭示高频使用条件供用户选择,提高筛选效率和搜索点击率。恢复字段搜索功能,搜索筛选支持根据环境筛选。[内容&组织]表格说明功能升级升级表格使用说明编辑器为语雀编辑器,支持导入语雀内容,帮助解决口径问题[内容&组织]数据相册数据相册提供管理员功能,支持多人协作维护。新增相册支持显示和修改收藏笔记。个人相册详情页支持通过表格描述和收藏备注进行搜索。相册新增使用说明功能[Content&Organization]数据地图与DataWorks数据打通,支持将地图中的表识别为模型表,并显示表的模型信息。1)搜索推荐2)数据相册核心表集中展示在数据相册中,可以有效实现核心表的搜索和使用。3)相册描述集中管理结构化知识,支持语雀知识导入,更好的管理和维护数据。4)数据白小生用算法处理数据知识,通过机器人问答实现查表和用表。为此,我们结合内部机器人产品打造了一款智能问答机器人。4.思考与总结FY22大淘模型治理项目后,通过大淘部门内部开发,与DataWorks团队&数据安全生产平台共建,实现了以下重要能力:模型评估体系:设计定义大淘系模型评估系统,从多个维度实现数据健康评估和表级治理建议。智能建模:与DataWorks智能建模团队合作,推出数仓规划、维度建模等重磅产品,实现维度表、明细表、轻汇总表、应用层表的正向和反向建模。数据地图升级:搜索推荐、数据相册、表格描述等重要功能升级,大大提高了数据的查找、使用和管理效率。合作规章制度:明确准通用层下沉规范、合作规则、交接程序、新人培训机制等制度,提供明确的制度保障。5、后续规划目前,淘宝系统的模型治理取得了很好的阶段性成果,在商品共建、模型评估、数据检索等方面取得了较好的效果,提高了效率。但仍存在一些悬而未决的问题:统一的架构和规范难以保证:各业务对阿里大数据体系规范的理解不一致,难以保证集团数据架构和规范的统一;通用业务层相对薄弱:历史背景下,各种业务通用层建设相对薄弱,新架构下业务效率和口径存在风险;ADS层不断增长,复杂度难以控制:阿里巴巴大数据系统规范对应用层缺乏规范,ADS与通用层边界不清晰。复杂度难以控制;缺乏有效的管控:在数据开发和运维层面,阿里巴巴积累了大数据系统规范,并不断与数据平台融合,但有些标准无法执行,无法与数据平台融合。在数据治理方面,目前数据无法有效识别数据表是否失效,导致研发不敢下载数据表,也没有精力去下载;数据建设与使用尚未完全打通:目前的数据开发与数据使用还没有完全实现数据打通,定义的模型、开发的数据在数据地图上没有得到有效的暴露和管理。下一阶段,我们将进一步深入解决未解决的问题:升级大淘系统的模型架构,从架构原则、设计规范、开发规范、运维等方面解决目前存在的架构问题规范、治理规范、共建机制。升级方法论,更好地适应数据研发现状,有效从架构层面为降本增效提供有效保障。智能建模持续与DataWorks团队共建,进一步提升通用层和应用层的开发效率,从产品层面提供保障。数据地图官方相册快速接入:目前官方相册的建设需要专人配置和维护。未来可以考虑降低访问成本,委托给各个团队独立访问和维护,从而提高数据相册的丰富性和易用性。进一步打通数据开发利用环节:进一步打通智能建模数据和数据地图,实现核心模型的快速筛选和揭示。多角度提升表的查询和使用能力:从表描述、表问答、数据知识抽取等方面,提升查表、表使用、表问答的简便性。结合文本算法、机器人等技术和产品能力,数据智能生成知识。开发助手开发助手可以在表推荐和表控制方面进一步升级。此次淘宝系统通用层评价体系升级,旨在为现有模型增加模型血缘相关信息,使淘宝系统通用层更厚,提供更好的数据支持用于业务的通用层。表自动下线:实现模型、表、服务的自动下线&专家体验下线,提高数据下线效率,降低人工干预成本。