当前位置: 首页 > 科技观察

数据中台与传统大数据平台有何区别?终于有人说清楚了

时间:2023-03-19 15:29:22 科技观察

本文转载自微信公众号《大数据DT》,作者彭峰宋文心等。转载本文请联系大数据DT公众号。我们可以理解为传统的大数据平台和数据仓库是数据中心的数据来源,数据中心的建设是为了更好的为业务部门服务。图1-1显示了信息系统、数据仓库、传统大数据平台和数据中心之间的关系,其中箭头代表数据的主要流向。▲图1-1数据中台与传统大数据平台、数据中台与传统大数据平台的关系型数据仓库有什么区别?为了描述方便,我们先给出传统大数据平台的架构(见图1-2)。▲图1-2传统大数据平台大数据基础能力层:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、Elasticsearch等。建立在大数据组件之上的ETL管道,包括数据分析和机器学习程序。数据治理体系。数据仓库系统。数据可视化系统。大家可以看到,这些都是传统大数据平台的核心功能。在很多大数据项目中,只要搭建好这些系统,即使大数据平台搭建成功,每天也能产生业务报表(包括实时大屏)。但数据中心应该是大数据平台的超集。我们认为,在大数据平台的基础上,数据中心还应该提供以下系统功能。1.全球数据应用资产管理这里所说的数据应用资产管理包括整个生态系统中的数据和应用。传统的数据资产管理大多只包括关系数据库(包括Hive)中的资产,而数据中心应该管理所有结构化和非结构化数据资产,以及使用这些数据资产的应用程序。如果说传统的数据资产管理提供的是数据目录,那么数据中心应该提供扩展的数据和应用目录。要避免重新发明轮子,首先要知道系统中有哪些轮子,因此在系统中维护一个数据列表和数据应用程序是很关键的。2.全局数据治理机制不同于传统的数据治理。数据中心必须提供全局数据治理工具和机制。传统数据仓库中的大部分数据建模和数据治理都是针对特定部门的业务。部分原因是全球数据建模和治理周期太长,而且往往因为部门之间的协调问题非常困难。数据中心提供的数据治理机制,必须让各个业务部门独立迭代,但前提是要有全球一致的标准。阿里提出的OneID,强调的是一个全球统一的对象ID(比如用户ID),属于这种机制。3、自助式、多租户的数据应用开发与发布现有的大数据平台大多要求用户具备一定的编程能力。数据中心强调为业务部门赋能,业务人员需要一个能够适应不同层次和能力需求的自助开发平台。这个开发平台必须能够保证数据隔离和资源隔离,让任何使用该系统的人都不用担心对系统造成破坏。4.数据应用运维用户应该能够方便的将自己开发的数据应用发布到生产系统中,而无需经过专门的数据团队。因为我们需要共享这些应用程序以及它们产生的数据,所以我们需要一个类似于CI/CD的专用系统来管理应用程序的代码质量和版本控制。数据应用运行过程中产生的数据也需要进行全程监控,确保数据的完整性、正确性和实时性。5.数据应用集成应能随时集成新的数据应用。新的大数据应用和人工智能工具不断涌现,我们的系统要随时支持这些新的应用。如果数据中心无法支撑这些应用,各业务部门可能会自建小集群,形成新的数据孤岛和应用孤岛。6.数据即服务,模型即服务数据分析的结果,无论是统计分析的结果,还是机器学习生成的模型,都应该以无代码的方式快速发布,供整个组织使用。7.数据能力共享管理大多数数据能力应该有完善的共享管理机制、便捷安全的共享机制和灵活的反馈机制。最终,决定如何使用数据的是独立的个人。他们需要一种获取信息的机制。因此,这样的共享机制必须在组织内部到位,才能真正使用数据。8、完善运营指标数据平台强调可衡量的数据价值。因此,对于数据在系统中的使用、使用频率以及最终的效果,必须要有一定的运营指标来验证数据。数据中心项目的价值和效率。基于以上讨论,除了阿里巴巴提出的OneID、OneModel、OneService之外,我们认为数据中台还应该满足以下两个需求。1.TotalPlatform的所有中台数据和相关应用都应该在一个统一的平台上进行管理。如果有数据存储在中台无法管理的地方,或者有人在中台不知情的情况下使用数据,我们就无法真正实现数据的全局管理。这就要求数据中心能够快速支持新的数据格式和数据应用,并在不单独建立系统的情况下方便数据工具的共享。2.TotalInsight数据中心应该能够理解和管理系统中的数据流向,提供数据价值的量化衡量,明确各部门的支出和产出。整个中台的运行是有序可控的,而不是一个黑盒子。用户可以轻松了解整体数据资产和能力,快速从系统实现数据变现。如图1-3所示,数据中心平台可以说是按照一定的规范要求搭建的数据能力平台。在数据仓库、大数据平台、数据服务、数据应用的建设中,实现了OneID、OneModel、OneService。数据层。这个数据层,连同建立在其上的业务能力层以及运营数据中心所需的TotalPlatform和TotalInsight,共同构成了我们看到的数据中心。▲图1-3数据平台的五大需求作者简介:彭峰,智领云科技联合创始人兼CEO。他拥有武汉大学计算机科学学士和硕士学位,以及马里兰大学计算机科学博士学位。主要研究方向为流式半结构化数据的高性能查询引擎。2011年加入推特,担任大数据平台总工程师,公司架构委员会大数据负责人,负责公司大数据平台和管道的建设和管理。宋文鑫,志灵云科技联合创始人兼CTO。武汉大学计算机系学士、硕士,纽约州立大学石溪分校计算机科学博士。曾就职于Ask.com和EA(艺电)。2016年回国联合创办智领云科技有限公司,组建智领云技术团队,开发BDOS大数据平台操作系统。志灵云科技市场总监孙浩峰。曾任CSDN内容运营副主编,专注于云计算、大数据、人工智能、区块链等技术领域,对云计算、网络技术、网络存储有深刻理解。拥有丰富的媒体行业从业经验和专业的网络安全技术技能,拥有超过15年的企业级IT市场传播、推广、宣传和写作经验,撰写了多篇在行业内具有影响力的文章。本文节选自《云原生数据中台:架构、方法论与实践》,经发布者授权发布。