01阿里巴巴数据平台的发展历史和现状第一阶段会在2012年左右,要建设数据中心,强大的数据平台是必不可少的,数据平台也可以称为数据中心的数据库。阿里巴巴数据平台发展的四个阶段代表了阿里数据平台发展的四个阶段。这四个阶段可以看出阿里对整个数据体系的不断改造和高效数据应用的思路。第一阶段,阿里电商业务进入爆发期。淘宝、1688等团队都是数据驱动的。数据架构基本基于IOT架构,核心系统都在Oracle上。阿里在2年内建成了亚洲最大的Oracle集群,但到了2010年,Oracle已经不能满足公司业务计算需求,数据延迟和计算错误不断发生,Oracle计算成本过高,无法支撑业务发展为此,阿里计划打造下一代数据平台,同时启动了云体1和云体2两个项目。Yunti1基于开源的Hadoop技术体系构建。多个业务部门自建Hadoop集群。集群规模一度达到4000个单位。当时阿里巴巴也搭建了自己的数据同步引擎,也就是现在的DataX,以及第一代任务调度引擎“天网”,这两个引擎搭建了DataWorks的基础服务。当时DataWorks没有UI,只是一个命令行工具。云梯2是基于阿里巴巴自研的大数据计算服务,也就是现在的MaxCompute。当时,集群规模达到了1,200。这两个项目当时在阿里内部处于竞争关系,并在开源和自研方面引起了内部广泛的争论。第二阶段:2015年2012年至2015年,阿里电商业务快速发展,同时涌现出菜鸟、高德、钉钉等众多新兴业务。阿里也形成了多个不同架构的平台体系,导致数据孤岛现象日益增多,数据成本飙升。2013年,云梯一号和云梯二号两个集群规模达到瓶颈,很多业务无法继续发展。阿里集团没有办法支持两套技术路线同时发展。这个时候,不得不做出决定。当时云梯一号的Hadoop集群遇到了无法突破5000台的瓶颈,这在业界是前所未有的,数据安全也是一个问题。最终,阿里选择了自研的云体2,通过“5K”项目突破了5000个集群的物理极限。5K项目成功后,阿里启动了“登月计划”,将云梯一号的Hadoop集群全面切换到MaxCompute集群。在此期间,DataWorks还推出了在线IDE,让数据开发从“命令行+本地IDE”时代走向WebIDE时代。2015年,阿里云数据+平台发布,核心产品为MaxCompute和DataWorks。作为数据发展平台,面对支撑集团内部数据建设的需求,以及阿里云上公有云和私有云的客户,阿里巴巴集团内部涌现出多套数据平台,包括内部支持和外部服务。最终,面对数据平台的分工与整合,阿里巴巴选择了建设集团统一的数据开发平台,即将所有数据开发工具整合到DataWorks中。第三阶段:2018年2015-2018年,数据中心的方法论逐渐确立,拉开了数据中心建设的序幕。2015年,阿里公布数据中台建设战略,开始构建符合DT时代的“大中小前台”组织机制和业务机制,进行从业务数据到数据的转型商业。随着计算和数据的不断增长,数据治理问题日益突出。阿里巴巴开始思考如何将数据中台的方法论应用到平台层,让平台更好的支持中台建设。在数据平台端,MaxCompute集群规模已经达到10万。DataWorks构建了大规模协同数据开发和治理的一站式能力,服务于阿里巴巴集团100+BU和200,000+阿里巴巴员工的数据访问和使用需求。第四阶段:2021年。从2018年到2021年,我们称之为云上数据平台与业务关联的阶段。2018年之后,阿里的数据平台业务已经非常成熟,数据平台也达到了良性循环。被视为数据中心建设成功的标志。DataWorks支撑综合数据中心服务业务建设,支持集团内300+数据应用,MaxCompute智能数仓让双11成为日常。目前已经能够以较低的成本实现配套业务的快速增长。2、阿里巴巴数据平台发展现状“数据效率”成为核心指标企业数据平台建设成功与否的核心指标是“数据效率”。数据效率从可维护性和数据利用率四个方面衡量,数据治理逐渐提上日程。02阿里巴巴数据治理实践阿里巴巴数据治理分为四个阶段,也伴随着数据平台的发展阶段。(1)第一阶段:数据稳定性治理的第一阶段也是首要保障的问题,即数据稳定性。阿里巴巴通过以下几个方面保证数据生产的稳定性。①稳定可靠的调度服务:阿里巴巴自研的天网调度系统,可以很好的支撑每天千万级别的任务,成功解决复杂的依赖问题。②标准化的数据开发和维护:数据开发和生产环境隔离,保证线上生产的稳定性。任务发布也受到独立控制,以支持更改和批准。③基线监控:从业务角度定义任务优先级,实现资源管控。④快速恢复:任务错误自愈,自动生成工单保证快速响应,任务诊断帮助定位原因,批量刷新数据快速恢复。⑤大促保障:全网强管控、问题节点治理、任务降级能力、分时调度等。(2)第二阶段:数据标准治理第二阶段是数据标准治理。阿里巴巴通过数据仓库的标准化设计和开发来预防问题,通过核心公共层减少数据重复建设,保证标准的一致性。基本思路是建立指标体系,设计数据模型,开发数据处理任务,开放数据服务。数据仓库中的核心公共层定义了一个门槛线,对进入核心公共层的数据进行强控制,保证数据的标准化。(3)第三阶段:数据安全治理第三阶段是数据安全治理。目前,数据安全已经上升到国家和社会层面。数据安全治理主要从数据分类与权限控制、敏感数据发现与脱敏、数据风险审计、可信计算环境四个方面进行。这里主要提到数据分类和分级。我们支持数据自动标注(如血缘关系等)。特殊数据可以通过人工标注和调整,根据不同的标签进行数据更合理的管理和使用。(4)第四阶段:数据成本治理第四阶段是数据成本治理,这是阿里巴巴近几年一直在做的事情。阿里的成本治理分为四个步骤,即设定组织成本目标、培养个人成本意识(有工具监督)、计算和控制存储成本、成本治理评估和运营。阿里巴巴2020年的成本控制成效显着,10%的数据成本增长支撑了65%的业务增速。(5)数据治理总结阿里巴巴的数据治理主要从组织体系、数据资产治理方法论、平台工具支撑运营三个方面进行保障。其中,平台工具是基础,主要包括DataWorks和MaxCompute的应用,在上述四个数据治理阶段发挥了重要作用。接下来,我们继续为大家解析DataWorks的核心能力。03基于阿里云DataWorks的全链路数据治理平台能力1.阿里云大数据平台业务全景阿里云自研大数据产品体系主要涵盖DataWorks、MaxCompute、Hologres、Datahub等产品,集中存储,托管企业数据资产,为数据应用程序处理和分析数据,并将数据转化为业务洞察力。通过与阿里云内外部服务灵活结合,构建丰富的数据应用。全托管数据与分析解决方案,简化平台运维、管理投资,提升面向业务的服务能力,加速数据价值的实现。2.DataWorks产品架构DataWorks作为一站式数据开发与治理平台,包括数据集成、规范设计、数据开发、数据治理、数据分析、数据服务、开放平台等产品服务,涵盖大数据研发和治理的全过程和全生命周期。在大数据引擎支持方面,DataWorks可以支持MaxCompute、实时数仓Hologres、开源大数据平台EMR和CDH/CDP,可以很好的适配市场上主流的大数据平台服务。3、DataWorks数据治理产品能力针对阿里数据治理的上述四个阶段,DataWorks提供了相应的产品工具能力支持。①DataWorks任务调度运维DataWorks提供超大规模任务调度能力,可视化工作流编排,复杂调度逻辑控制,离线&实时任务运维,可视化任务运维操作,任务智能运维诊断等功能。DataWorks的任务调度系统伴随着阿里巴巴数据仓库10多年的发展和“双11”的考验。其性能和稳定性均处于行业领先水平,是保障数据生产稳定输出的基础。②DataWorks数据质量管理DataWorks数据质量管理对数据的完整性、有效性、准确性、唯一性、一致性和合理性提供全面的评价和保障能力。支持灵活定义质量规则,包括37条内置模板规则和自定义规则,提供智能规则自动推荐,动态阈值智能预测,通过机器学习智能判断规则的合理上下限,降低数据成本探索,提高质量规则配置效率。同时支持选择是否阻塞下游任务运行,避免脏数据污染。③DataWorks数据仓库规范设计(数据建模)DataWorks数据建模产品体系包括数据仓库规划、数据标准、维度建模和数据指标。提供多种建模交互方式,包括可视化数据建模、导入Excel数据模型文档、通过FML(FastModelingLanguage,DataWorks开源的类SQL数据建模语言)进行语义数据建模,并可以自动生成ETL伪代码实现数据建模与数据开发的无缝对接。DataWorks数据建模支撑阿里集团数仓核心公共层的建设,是OneData方法论的产品实现。④DataWorks元数据管理(数据地图)元数据管理可以说是数据管理和数据治理的基础。DataWorks数据地图提供数据发现、数据分类、数据检索、数据详情、数据预览与探索、数据沿袭与影响分析等功能。支持异构数据源元数据的自动采集和数据目录的自动构建,支持表级和字段级的数据沿袭,根据数据沿袭进行影响分析,推断数据变化可能的影响范围,从而指导数据开发人员进行数据变更影响评估。⑤DataWorks数据安全管控DataWorks和MaxCompute提供金融级数据安全管控能力,包括细粒度的数据权限控制、数据分级分类、敏感数据发现与脱敏、数据审计等,涵盖数据传输安全、数据存储安全、数据处理安全、数据交换安全的全链路数据安全服务。⑥DataWorks积极可持续的数据治理DataWorks在过去多年的发展迭代中积累了大量的数据治理产品工具,但是要用好这些工具还是要靠人的经验和能力。在数据治理过程中,很多企业也面临着数据治理有效性评估难、治理团队绩效难以衡量等问题,导致数据治理过程往往走向项目化、战役式、并且不可持续。针对此类问题,DataWorks推出了全新的数据治理中心产品,通过问题驱动的方式,帮助企业主动发现需要治理的问题,引导用户优化解决问题,进而为数据提供打分模型治理有效性,帮助企业量化评估数据治理的健康程度,从而实现有效、可持续的数据治理过程。DataWorks数据治理中心产品提供研发规范、数据质量、数据安全、计算资源、存储资源五个维度的发现问题治理能力。针对这五个维度,产品内置了非常丰富的治理项扫描机制,可以事后发现问题。同时,产品还内置检查项拦截机制,事前、事中发现并拦截问题。针对这五个维度,DataWorks设计了一套基于阿里巴巴内部实践的健康评分评估模型,可以有效量化衡量数据治理的有效性。企业可以通过数据治理健康评分快速识别自身的短板,进而进行针对性治理,并通过健康评分实现评估和考核,从而实现可持续、可操作的数据治理,使数据治理过程有针对性、有针对性。不再无从下手。4、DataWorks开放平台助力企业实现个性化数据治理企业数据治理流程不规范,DataWorks数据治理中心提供的产品能力不能完全满足企业数据治理的所有需求。因此,一个完整的数据治理平台必须支持插件机制,允许企业自定义数据治理插件。DataWorks全新升级开放平台。在原有OpenAPI的基础上,增加了OpenEvent、Hook和Extensions的能力。您可以在DataWorks平台订阅打开事件消息。DataWorks为核心流程中的事件提供了一个扩展点机制(Hook)。当事件发生时,系统会自动中断流程等待你接收事件消息并对事件消息进行自定义处理,最后通过OpenAPI将你处理的结果回调给DataWorks,DataWorks会选择根据您自定义的处理结果执行或阻塞后续流程,实现您对DataWorks处理流程的自定义控制。你订阅事件、处理事件、回调事件处理结果的程序服务称为扩展,或插件。通过这种方式,您可以实现多种自定义数据治理插件,例如任务发布检查插件、计算成本消耗检查插件等。04下一代数据平台的智能化演进方向数据湖是一个广输入广输出、相对协同、松耦合的系统。数据仓库是一个严入严出的严耦合系统。数据湖是先进来后开始使用的,所以是事后建模,可以存储结构化、半结构化和非结构化数据。数据仓库是一个严格的系统,需要事先建模,将数据转换清洗入库,存储类型变为结构化或半结构化。数据湖提供了一套标准的开放接口,可以支持更多的引擎,比如接入系统,所以对所有引擎都是开放的。数据仓库是对特定引擎开放的,但正是因为数据仓库是一个自闭环系统,它的计算引擎、存储引擎、元数据都可以进行深度和垂直的优化,可以获得非常好的性能。一般来说,数据湖更灵活,数据仓库更多是企业级的能力。既然数据湖和数据仓库在企业发展的不同阶段扮演着关键角色,那么是否有一种技术或架构可以同时发挥两者的优势呢?通过我们对行业的洞察和阿里云自身的实践,我们认为湖仓正在融合,湖仓一体的数据管理新架构可以很好的解决这个问题。湖仓融合作为下一代数据平台架构,是满足架构复杂度的灵活升级。MaxCompute湖仓一体化,支持Hadoop数据湖和OSS数据湖的对接。DataWorks提供湖仓一体化开发和管理升级,支持湖仓分钟级自助对接,屏蔽众多底层配置细节,实现业务快速化。洞察力。今天的分享就到这里,谢谢大家。
