当前位置: 首页 > 网络应用技术

如何使用三角洲湖建造批处理数据仓库

时间:2023-03-08 20:09:40 网络应用技术

  简介:三角洲湖是一个开源存储层,它为数据湖带来可靠性。DeltaLake提供酸性交易,可扩展的元数据处理以及均匀处理和批处理处理数据处理。Delta-Laye在现有的数据湖上运行,并且完全是与Apache Spark Api兼容。我希望本文能够让所有人更深入地知道三角洲湖,最终他们可以在工作中练习。

  作者:

  Li Yuanjian,Deltabricks软件工程师

  Alibaba Cloud开源大数据平台的技术工程师Feng Jialiang

  三角洲湖是一个开源存储层,为数据湖带来可靠性。DeltaLake提供酸性交易,可伸缩的元数据处理以及均匀处理和批处理处理数据处理。Delta-Laye在现有的数据湖上运行,并且完全兼容Apache Spark Api.我希望本文能够让所有人更深入地知道三角洲湖,最终他们可以在工作中练习。

  本文将介绍来自三个部分的Delta Lake的一些功能:

  1)背景

  我相信每个人都在构建数据处理数据方面非常有经验,并且该行业还消耗了大量资源来构建相关系统。

  我们发现,一系列数据,例如半结构数据,真实时间数据,批处理数据,用户数据等,存储在各个地方,为用户提供不同的处理表格。

  那么我们期望的理想系统是什么?

  但是现实是:

  在这种情况下,三角洲湖开始存在。

  2)您要解决的问题

  以下是使用常见的用户场景为示例。如果没有三角洲湖,如何解决这样的问题。

  这可能是最常见的三角洲湖现场。例如,我们有一系列的流数据,不断从Kafka系统流动,我们希望具有真实的时间处理能力。在同一时间,我们可以在Delta Lake中放置数据周期性。在同一时间,我们需要整个系统具有AI和报告功能的导出。

  1.历史查询

  第一个处理流相对简单,例如通过Apach Spark使用流分析来打开真实时间流。

  同时,当您需要离线流程时,历史查询可以使用Lambda Architecture.Apach Spark的相应方法提供了良好的抽象设计。我们可以通过代码或API来完成流程和真实的λ架构设计。

  通过查询历史数据,我们可以进一步使用SPARK进行SQL分析,并使用SPARK SQL的操作来生成AI技术。

  2.数据验证

  我们需要面对的第一个问题是对数据的验证。

  我们的流数据和批处理数据,假设存在Lambda架构时,如何确认我们在某个时间点找到的数据是正确的?流数据和批处理数据是多少?什么时候应该将我们的批次数据与流数据同步?

  因此,Lambda体系结构还需要引入验证,这需要我们确认。特别是对于精确的数据分析系统,例如用户的报告系统,验证步骤是必不可少的。

  因此,我们可能需要一个分支来解决流和批处理之间的同步问题以及相应的验证问题。

  3.数据维修

  假设解决方案如上所述,我们会发现一段时间后,我们会发现,如果我们相应分区数据的相应数据存在问题,则需要在几天后纠正当天的脏数据。我们现在应该做吗?

  通常,我们需要在修复数据之前停止查询上的查询,在修复数据后还原在线任务。在这种折腾方式中,实际添加维修和过去版本恢复的能力已添加到系统体系结构中因此,重新处理是诞生的。

  4.数据更新

  假设解决了重新处理问题,我们可以在AI和报告的最后一个媒体上看到一系列新的需求。越来越多的人使用数据添加用户ID的维度。我目前该怎么办?指南Delta Lake添加一系列抛弃,例如模式,停留和相应的数据处理。

  因此,您可以看到将有新的问题解决问题。如果按照案例逐案,系统将继续修补系统。简单或集成的需求将变得越来越多余,更复杂。

  5.理想的三角洲湖

  那么,理想中的三角洲湖应该是什么样的?

  这是对应于入口和导出的系统的相应物质。唯一的核心是三角洲湖层,即可以实现相应的数据处理和整个数据输入过程:

  1)三角洲湖的能力

  让我们看一下如何在Deltalake中解决这一系列问题。

  在上述5点完全解决之后,我们可以使用Delta Lake替换Lambda架构,或者我们可以使用一系列批处理流系统使用Delta Lake建筑。

  2)基于三角洲湖的建筑设计

  什么是基于Delat Lake的建筑设计?

  Delat Lake的建筑设计中的一系列元数据或最低级别是桌子。我们的数据层可以分为基本数据表,中间数据表和最终的高质量数据表。只需要注意任何东西。在桌子的上部和下到达,它们之间的依赖性是否变得更简单和干净。我们只需要注意业务层面的数据组织,因此Delat Lake是统一批处理和流式传输连续数据流的模型。

  以下说明了如何在Databricks数据见解中设置流线数据仓库的操作,以解决Databricks Data Insight中生产环境的问题。

  演示视频:https://developer.aliyun.com/live/248826

  原始链接

  本文是阿里巴巴云的原始内容,未经许可就无法重印。

  原始:https://juejin.cn/post/7097100345494470692