当前位置: 首页 > 网络应用技术

Yunbuqian离线真实 - 时间集成数字仓库建设和实践

时间:2023-03-07 23:58:45 网络应用技术

  简介:此内容分享了Yunbang的离线真实 - 时间集成位置的结构和实践。

  视频链接:数据智能实践营地贝吉特站特别评论

  文本:

  本文的内容将通过五个部分介绍Yun Native Orfline Real -Time集成位置的构建和实践。

  1.构建离线真实时间集成仓库的困难

  第二,离线真实 - 时间集成数字位置技术进化

  3.阿里巴巴离线真实 - 时间综合数字仓库建筑实践

  第四,离线真实 - 时间集成数字仓库参考体系结构

  5.将来,真实时间仓库的核心趋势

  随着时代的发展,数据分析已逐渐转移到数据决策和在线转换,从真实的时间大屏幕洞察力。实时数据的精制操作使每个人都可以根据数据需求增长索引级别。另一方面,建议在线数据,风险控制系统还严重取决于实际时间数据,并且数据分析的强度和强度已大大提高。

  面对蓬勃发展的数据需求,我们的数据体系结构变得越来越复杂。无论是订单数据或行为数据,它们都是通过消息中间件收集的,然后通过多个处理链接收集。一块数据是离线的,真实的 - 时间,在线,在线之后,将生成多个数据集。此架构使运营和维护的成本变得非常高。

  整个体系结构的高成本背后是因为有多个组件和多组存储。并且多组存储带来了多个数据岛,因此无法保证数据的一致性。EAFT系统具有其自己的操作方式以及维护,开发和用法。结果,运营和维护成本和学习成本增加了。

  当我们回顾计算机行业的开发时。在1960年代,当每个程序员开发系统时,他需要通过离散文件,网络文件或层次文件存储状态。在1980年代,您可以通过描述来分析数据。在大数据时代,有许多存储数据的方法,并且相同的数据在各种引擎中都有不同的选择。尽管不同的技术在可伸缩性,平行能力和吞吐量上都有不同我们分析问题的方式。因此,随着数据技术的发展,数据存储将有一个集成过程。

  我认为catrapple平台的及时性具有两个概念,即真实的时间和及时。它们只是机器的场景来做出决策的场景需要真实-Time。例如,结束数据生成和延迟,- 屏幕风险控制,计算延迟,事件驾驶等。人类做出决策的时间通常基于几分钟/小时/日/月。极其新鲜的数据不会影响人类决策的本质 - 制作的本质。更改决策结果的系统是一个极好的真实时间系统。就像对大规模数据,自助服务分析等的灵活分析一样。

  有时每个人通常都会忽略数据的及时性数据质量。如果许多仓库仅追求及时性,我们只能看到结果值。仅仅很难找到数据质量,第二个更正的成本是也很高。因此,必须检查和纠正出色的实时位置平台。

  真正的 - 时间仓库平台的第三个需求是降低成本。这里主要分为开发成本,运营和维护成本和人工成本。核心,核心是开发成本。我们不仅必须让业务和技术去耦,实现数据资产并开发业务自我开发。它还需要简化链接以减少依赖性和传输。在操作和维护条款中,组件不仅必须具有良好的弹性,而且还具有监护权服务以减少操作和维护成本。根据人工成本,我们必须降低技术阈值和学习成本。

  总而言之,一个出色的真实时间位置需要四个功能。首先,支持真实的时间写作,实时事件计算,实时分析,并满足真实的时间和时间 - 时间 - 时间 - 第二,第二,并集成真实 -时间和离线。还原数据的冗余和移动,具有简化数据并纠正数据的能力。三分之二,实现业务和技术解耦合。支持自助服务分析和敏捷分析。四十四,拥抱标准,拥抱生态学和拥抱云。降低运营和维护成本和迁移成本。SQL是首选。

  接下来,让我们看一下离线真实 - 时间集成的开发。如上图所示,阿里巴巴的第一个代理真实仓库主要是为特定的企业进行烟囱开发。我们使用典型的lambda架构来实现收集,处理和服务的三个步骤策略。根据特定业务,烟囱的构建。基于任务的支持应用程序方案,当数据预处理进行预处理时,将其存储在OLAP和KV Engines上。业务情况越来越复杂,运营和维护开发的成本越来越高。烟囱型开发方法不再适应业务变化。

  因此,我们拥有第二代真实 - 时间仓库,并为该位置开发的指标重复使用。我们引入了OLAP引擎以将小数据存储在MPP数据库中并支持OLAP Qury。然后在DWD层中,数据源(数据源)根据主题进行集成,以构建可重复的DWS层以减少构造的烟囱。同时,在不同的任务和引擎中,烟囱业务逻辑仍在促进。根据SLA,OLAP分为多个实例,从而增加了数据运行,维护成本和开发成本。在同一时间,免费KV模式的元数据管理尤其困难。

  为了解决上述问题,我们已经开发了第三代真实 - 时间仓库,这是统一数据服务的一个停机开发。在第三代的真实时间仓库中,我们将使用薄层和摘要层,应用详细的层和摘要层,集中存储和统一的管理。第二,我们将OLAP和KEYVALUE统一到SQL接口中。然后简化了真实的时间链接和处理链接,以便可以纠正数据并降低外部的依赖性。系统。通过一个停滞的开发,我们不仅意识到数据的第二级响应,而且使完整的链接状态可见,整个架构中的组件较少,依赖性较少。有效降低操作和维护成本和人工成本。

  接下来,让我们谈谈阿里巴巴的离线真实 - 时间综合位置构建的实践。2020年,阿里巴巴双重屏幕,高峰处理新闻是每秒4亿元人民币,整天进行了1.50万亿美元,GMV在3秒内。,整天延迟1到2秒。这些数据主要来自两个渠道。首先,结构化的订单数据。第二,用户点击,单击生成的数据。汇总数据集合后,某些数据输入该数据,请输入。真实的时间处理链接并输入FLINK。数据的其他部分进入档案中的离线数字仓库。离线系统主要是MaxCompute,在线系统主要是全息系统。

  因为MaxComput是一项大数据计算服务。它可以提供灵活性和快速,完整的监护权,高性能,低成本和安全性PB。平台以及通过MaxComput进行了深入分析数据和报告分析。MaxComput不仅简单易用,而且具有极致的弹性,而且具有企业 - 级别的安全功能,可以完全保护企业的数据。

  上图是DateWorks,是阿里巴巴云的重要组成部分。DateWorks由许多组件组成,包括数据治理,数据开发,数据调度,数据调度,元数据管理和其他模块。DateWorks集成了Alibaba Cloud的不同引擎和治理能力。

  我通常将存储分为三类。第一种交易在线交易系统。适合使用TP模型解决AP的简单分析场景。第二类分析系统,该系统经常使用分布式分布式,列,索引。通过各种压缩技术,将大量的数据分析到极端。第三类是服务系统。这样的系统可以以毫秒级的响应。它支持每秒成千上万的QP。它主要读取和更新简单。

  HSAP通过数字模型解决数据服务问题。HSAP主要用于数据报告,数据查看,在线应用程序。可以统一的数据存储并统一地执行数据服务。此外,HSAP支持离线数据和真实的批处理导入- 实时数据的时间更新。

  上图是一个停滞的真实时间位置的演变。无论是互动分析,联邦查询还是在线高性能点可以减少数据传输和依赖性。对于离线处理部分,我们继续使用MaxCompute。数据处理的一部分使用Flink.Avoid数据分配,授权数据服务并简化操作和维护管理。

  Alibaba Cloud的Hologres以用于分析服务集成的真实时间仓库进行设计。在云的术语中,它连接到MaxCompute,透明和加速的MaxCompute的底层,并且在流媒体的存储中是离线的。吞吐量数据是编写,支持和可以看到的。在性能方面,随着CPU的多核化,我们优化了工程引擎(例如矢量化和所有异步),并充分利用计算资源。

  在ALI客户体验系统CCO的真实 - 时间仓库重建中,我们整合了交易,咨询,退款等数据,并解决了风险操作,智能类,预赛车前转移以及现场调度的需求该建筑是简化和可靠的,岛屿不是岛屿,支持联邦查询,并且完整的过程被延迟。不仅可以减少数据同步,而是避免了数据延迟和数据库震颤。并且满足了10个增长的需求乘以双11流量。

  上图反映了过去三年中ALI客户体验系统CCO的开发以及实际时间处理任务的开发。连续三年,成本增加了100%,导致了高度的操作和维护压力,而且成本消耗很大。在研究CCO的技术体系结构后,我们发现真正的时间任务具有烟囱的问题。首先,KV引擎与OLAP引擎没有连接,并且没有统一的存储空间第二,公共级别的任务链接太长了,不同实例同步和操作之间的数据已扩大,从而导致越来越高的维护成本。

  为了解决上述问题,我们使用Hologres技术机构与Flink和DataWorks数据映射集成在一起。实现高绩效写作,允许元数据整合DataWorks数据映射。已经构建了高可靠的场景HA,以及等级的排名已经实现了混合和资源隔离。

  通过DataHub+Flink+Hologres+MaxCompute的技术架构,CCO的整体硬件资源成本降低了30%,实际时间写作支持数千万/秒,以及数十万/秒的列表。2020 double 11,平均延迟为142ms,查询的99.99%在200m之内。此外,它还可以支持200多个实时数据大型屏幕构建,为将近300+的主要两个主要构建提供了稳定的数据查询服务。

  Yunyun的真实时间仓库主要分为处理层和存储层。处理层主要是flink Processing。存储层具有Hologres System。只有三种类型的数据处理。首先,座位查询方法;其次,准真实 - 时间方法;第三,增加方法。通过这三种方法,已经满足了大多数场景的处理需求。

  真实时间仓库的数据分析主要用于可视化的大屏幕,Web应用程序API,BI报告系统,真实 - 时间数据接口服务等。首先,将业务系统的结构化数据收集到真实的时间 -数据缓存平台。初步分类后,增量数据进入datahub;全部详细信息输入全息图。然后执行数据集成,flink处理增量数据以及实时更新详细信息。

  然后,脱机任务处理表由MaxCompute导入。CDM/ADS层表是实际的物理表。该任务是由DataWorks.Finally,Front -End请求和数据的真实时间依赖性均匀安排的,所有内容均由DataWorks调度周期配置。

  在增量数据的实际时间统计中,只要增量流,联接静态维度的增量流,增量流量流的增量流,这三种情况就可以计算数据。然后通过flink计算和datahub。广告层存储在Hologres中。Logic简单而真实。

  如何选择MaxCompute和Hologres?这两种技术的技术原理是完全不同的。MaxCompute具有典型的数据处理方案。计算过程是异步的,并且根据需求分配资源。扩展几乎是无限的,接口标准是MC SQL。所有全息药物的任务已同步。应尽可能避免复杂的查询,以避免交叉-Multi-节点数据洗牌。基于pangu,SSD使用缓存加速度,成本相对较高。接口标准为postgresql。

  数字仓库开发应逐渐实现降低水平和持续重复使用的目标。降低数据水平,更改敏捷适应要求,并削弱ADS,DWS和DWD的应用开发。并且不需要外部同步工具。数据传输效率比其他软件高10倍以上。

  数据开发并非一夜之间进行,必须在各个阶段进行。每个人必须在不同阶段使用不同的处理方法。在第一阶段,它必须基于数据。指导支持,了解业务和数据。

  在第二阶段,我们必须符合在线快速业务。

  直到第三阶段的成熟层和不同的组织结构开始计划之前。整个系统趋于稳定,需求成为一个系统。与业务紧密相关。公共交换层开始沉淀。

  将来,真实时间仓库的核心趋势是一个停滞的数据平台,敏捷数据开发和在线数据服务。

  一个停滞的真实 - 时间仓库,一个系统可以同时解决相同的问题,OLAP分析和在线服务。对于满足业务的敏捷响应,数据自助分析,避免数据岛,授权数据是必要的服务,简化操作和维护管理。

  数据服务仅是内部系统,并成为外部在线系统。不仅可以支持数据决策,还可以改善在线转换。最终,数据平台的高可用性和高并发性。低延迟/低抖动数据,安全性,安全可靠。

  最后,数据开发是敏捷的。未来,我希望通过技术创新和空云的发声弹性来减少人类的瓶颈。向外界提供服务,以将灵活性从仓库的位置转移到业务分析师,以便以便出色的计算能力解决了人类的瓶颈。

  原始链接

  本文是阿里巴巴云的原始内容,未经许可就无法重印。

  原始:https://juejin.cn/post/7098585141953429512