当前位置: 首页 > 网络应用技术

基于赫迪夫人的典型应用程序场景简介以建立数据湖

时间:2023-03-06 12:10:31 网络应用技术

  摘要:华为Cloud FunsionInsight Mrs MRS基于Hudi Mrs Mrs inters intapache Hudi 0.8版本,以建立数据湖解决方案。

  在传统的数据湖解决方案中,Hive通常用于构建t+1的数据仓库,并且通过HDFS存储存储大量数据的存储和水平扩展,以及通过Hive进行元数据和数据操作的管理。可以在大规模批处理方案中取得良好的结果,仍然存在以下问题:以下状态:

  问题1:不支持事务

  由于传统的大数据方案不支持交易,因此他们可能会读取不注重数据,导致数据统计错误。为了避免此问题,通常会控制阅读和写作任务的顺序,以确保完成写作完成后开始阅读任务任务。但是,并非所有阅读任务都可以受到调度系统的限制,并且在阅读时仍然存在此问题。

  问题2:数据更新效率低

  业务系统库的数据除了流量计类别的数据外,还有新数据,还有许多状态数据表需要更新(例如:帐户余额表,客户状态表,设备状态表,等),并且传统的大数据表方案无法满足增量更新。它通常在拉链中使用。首先,执行联接操作,然后执行插入覆盖操作。更新操作是通过覆盖方法完成的。此操作通常需要t+1批次processdelay t+1,诸如低效率和高成本之类的问题。

  问题3:无法处理时间表的变化

  在上游业务系统更改数据模式之后,它将导致数据进入湖泊,并将同时调整数据湖表模式。在技术实施条款中,可以使用数据表重建方法来满足场景,导致了数据湖数据表的管理和维护的复杂性和高昂的成本。此外,这种情况通常要求与业务部门和数据团队合作,以实现表结构的同步管理过程。

  问题4:历史快递表冗余

  传统的数据湖方案需要存储在历史快照中,并以全数量的历史存储进行实施。例如,天堂级历史快照表每天都会存储完整的表数据。这会导致大量数据存储冗余以占据大量存储资源。

  问题5:小批量增量数据处理成本高

  为了获得增量ETL,传统数据湖通常按照分区存储增量数据。如果为了实现t+0数据处理,则需要根据小时或微小的级别为划分粒径。这种实现形式将导致小文件问题,并且大量分区也会导致上的压力增加元数据服务。

  基于上述问题,华为FunsionInsight MRS整合了Apache Hudi组件,希望通过HUDI组件来改善传统数据湖泊的问题。

  Apache Hudi是数据湖的文件组织层。它管理格式文件,例如Parquet,并提供数据湖功能,支持各种计算机,提供IUD接口,并提供插入的更新和增加的HDFS/obs数据集的报价。简化的单词具有以下特征:

  1.支持酸

  2.快速上升能力

  3.模式演变

  4.多视图阅读接口

  5.多个版本

  场景描述:

  一个介绍:

  该解决方案基于MRS-CDL组件,并由CDL组件的商业库的操作事件捕获和编写,以存储基于Hudi MRS的数据湖。

  MRS-CDL是FusionInsight MRS启动的数据实时同步服务。它旨在在传统的OLTP数据库中捕获事件信息,并将其实时推向数据湖。该解决方案具有以下特征支持:

  计划收入:

  场景描述:

  计划说明:

  夫人的Flinksql的湖泊链接基于Flink+Hudi.mrs-flink在特征下支持此解决方案:

  计划收入:

  通过Flinksql进入湖泊的声明如下:

  插入table_hudi select *从table_kafka;

  场景描述:

  湖中的数据通常存储一层仓库,例如:粘贴源(SDI),摘要层(DWS)和市场(DW)。每个公司也将具有不同的分层标准。DATA还将直接在每个层上具有相应的规格。传统数据湖通常使用完整的尺度数据ETL处理来实现层之间的数据循环。

  现在,Hudi支持酸性功能,UPSERT功能和增量数据查询功能。它可以实现增量ETL,并在不同层之间迅速流动。

  ETL操作的增加与传统的ETL操作业务逻辑完全相同。增量表读取使用commit_time以获取增量数据的使用。操作逻辑中的多表可关联可以使HUDI表与Hudi表关联,否则Hudi也可以使用Hive Table.Table.ETL操作开发基于SparkSQL和FlinkSQL.ETL.ETL语句,基于增量视图是如下:upsert table_dws select *从table_sdi中commit_time>“ 2021-07-07 12:12:12”。

  由于使用了增量ETL方法,每次处理的数据量也会减少,并且具体下降取决于实际的业务流情况和增量量的周期性粒径。例如,该业务数据物联网,全天24个小时的流量稳定,使用10分钟的增量ETL,那么处理量的数量将为全天数据量的1/(24*60/10)因此,当数据量显着减少时,所需的计算资源也相应减少。

  计划收入:

  场景描述:

  存储在数据湖中的数据具有完整数据类型,更多维度和长期历史周期的特征。业务所需的数据基本存在于数据湖中。因此,直接互连引擎直接连接数据湖以满足业务的各种数据。

  诸如数据探索,BI分析,报告显示和其他业务方案之类的业务方案需要能够查询第二级回报以获取大量数据查询。同时,简单的SQL需要分析接口。

  计划说明:

  在这种情况下,可以使用夫人 - 户外用来实现此解决方案。Hetuengine夫人是一种分布式的高性能交互式分析引擎,主要用于数据的快速实时查询方案。MRS-HETUENGINE具有以下功能,可以很好地支持此场景:

  计划收入:

  场景描述:

  传统的加工体系结构采用lambda或kappa架构。Lambda更加灵活,也可以解决业务方案,但是在此架构中需要两个系统来完成,并且维护更为复杂。它很难在数据转移后与数据连接。示例:流程处理方案的批处理处理结果。Kappa体系结构是实时处理的体系结构,缺乏批处理处理的能力。

  计划说明:

  在许多实时场景中,后者的要求可以在几分钟之内,因此可以通过hudi夫人和实时计算引擎flink和Spark流式进行计算,以计算数据的快速处理,以及端到 -最终实施微小的延迟。此外,赫迪夫人本身是一个湖泊存储,可以存储大量数据,因此它也可以支持批处理计算。常用的批处理加工引擎可以使用Hive和Spark。

  计划值:

  传统的大数据不支持诸如交易之类的疼痛点,从而导致t+1延迟。尽管它可以基于Flink流计算,但是在简单方案中,少量数据处理功能仍然可能缺乏真实的时间更新和大规模和复杂方案的交易支持。分钟级别的数据处理解决方案,以实现大量数据的复杂计算实时处理能力,极大地增强了数据的及时性,并使数据值在眼睛附近。

  本文分享了华为云社区的诚意,作者:Chunbai。