当前位置：首页 > 网络应用技术

Yunbuqian离线真实 - 时间集成数字仓库建设和实践

时间：2023-03-07 23:58:45 网络应用技术

　　简介：此内容分享了Yunbang的离线真实 - 时间集成位置的结构和实践。

　　视频链接：数据智能实践营地贝吉特站特别评论

　　文本：

　　本文的内容将通过五个部分介绍Yun Native Orfline Real -Time集成位置的构建和实践。

　　1.构建离线真实时间集成仓库的困难

　　第二，离线真实 - 时间集成数字位置技术进化

　　3.阿里巴巴离线真实 - 时间综合数字仓库建筑实践

　　第四，离线真实 - 时间集成数字仓库参考体系结构

　　5.将来，真实时间仓库的核心趋势

　　随着时代的发展，数据分析已逐渐转移到数据决策和在线转换，从真实的时间大屏幕洞察力。实时数据的精制操作使每个人都可以根据数据需求增长索引级别。另一方面，建议在线数据，风险控制系统还严重取决于实际时间数据，并且数据分析的强度和强度已大大提高。

　　面对蓬勃发展的数据需求，我们的数据体系结构变得越来越复杂。无论是订单数据或行为数据，它们都是通过消息中间件收集的，然后通过多个处理链接收集。一块数据是离线的，真实的 - 时间，在线，在线之后，将生成多个数据集。此架构使运营和维护的成本变得非常高。

　　整个体系结构的高成本背后是因为有多个组件和多组存储。并且多组存储带来了多个数据岛，因此无法保证数据的一致性。EAFT系统具有其自己的操作方式以及维护，开发和用法。结果，运营和维护成本和学习成本增加了。

　　当我们回顾计算机行业的开发时。在1960年代，当每个程序员开发系统时，他需要通过离散文件，网络文件或层次文件存储状态。在1980年代，您可以通过描述来分析数据。在大数据时代，有许多存储数据的方法，并且相同的数据在各种引擎中都有不同的选择。尽管不同的技术在可伸缩性，平行能力和吞吐量上都有不同我们分析问题的方式。因此，随着数据技术的发展，数据存储将有一个集成过程。

　　我认为catrapple平台的及时性具有两个概念，即真实的时间和及时。它们只是机器的场景来做出决策的场景需要真实-Time。例如，结束数据生成和延迟，- 屏幕风险控制，计算延迟，事件驾驶等。人类做出决策的时间通常基于几分钟/小时/日/月。极其新鲜的数据不会影响人类决策的本质 - 制作的本质。更改决策结果的系统是一个极好的真实时间系统。就像对大规模数据，自助服务分析等的灵活分析一样。

　　有时每个人通常都会忽略数据的及时性数据质量。如果许多仓库仅追求及时性，我们只能看到结果值。仅仅很难找到数据质量，第二个更正的成本是也很高。因此，必须检查和纠正出色的实时位置平台。

　　真正的 - 时间仓库平台的第三个需求是降低成本。这里主要分为开发成本，运营和维护成本和人工成本。核心，核心是开发成本。我们不仅必须让业务和技术去耦，实现数据资产并开发业务自我开发。它还需要简化链接以减少依赖性和传输。在操作和维护条款中，组件不仅必须具有良好的弹性，而且还具有监护权服务以减少操作和维护成本。根据人工成本，我们必须降低技术阈值和学习成本。

　　总而言之，一个出色的真实时间位置需要四个功能。首先，支持真实的时间写作，实时事件计算，实时分析，并满足真实的时间和时间 - 时间 - 时间 - 第二，第二，并集成真实 -时间和离线。还原数据的冗余和移动，具有简化数据并纠正数据的能力。三分之二，实现业务和技术解耦合。支持自助服务分析和敏捷分析。四十四，拥抱标准，拥抱生态学和拥抱云。降低运营和维护成本和迁移成本。SQL是首选。

　　接下来，让我们看一下离线真实 - 时间集成的开发。如上图所示，阿里巴巴的第一个代理真实仓库主要是为特定的企业进行烟囱开发。我们使用典型的lambda架构来实现收集，处理和服务的三个步骤策略。根据特定业务，烟囱的构建。基于任务的支持应用程序方案，当数据预处理进行预处理时，将其存储在OLAP和KV Engines上。业务情况越来越复杂，运营和维护开发的成本越来越高。烟囱型开发方法不再适应业务变化。

　　因此，我们拥有第二代真实 - 时间仓库，并为该位置开发的指标重复使用。我们引入了OLAP引擎以将小数据存储在MPP数据库中并支持OLAP Qury。然后在DWD层中，数据源（数据源）根据主题进行集成，以构建可重复的DWS层以减少构造的烟囱。同时，在不同的任务和引擎中，烟囱业务逻辑仍在促进。根据SLA，OLAP分为多个实例，从而增加了数据运行，维护成本和开发成本。在同一时间，免费KV模式的元数据管理尤其困难。

　　为了解决上述问题，我们已经开发了第三代真实 - 时间仓库，这是统一数据服务的一个停机开发。在第三代的真实时间仓库中，我们将使用薄层和摘要层，应用详细的层和摘要层，集中存储和统一的管理。第二，我们将OLAP和KEYVALUE统一到SQL接口中。然后简化了真实的时间链接和处理链接，以便可以纠正数据并降低外部的依赖性。系统。通过一个停滞的开发，我们不仅意识到数据的第二级响应，而且使完整的链接状态可见，整个架构中的组件较少，依赖性较少。有效降低操作和维护成本和人工成本。

　　接下来，让我们谈谈阿里巴巴的离线真实 - 时间综合位置构建的实践。2020年，阿里巴巴双重屏幕，高峰处理新闻是每秒4亿元人民币，整天进行了1.50万亿美元，GMV在3秒内。，整天延迟1到2秒。这些数据主要来自两个渠道。首先，结构化的订单数据。第二，用户点击，单击生成的数据。汇总数据集合后，某些数据输入该数据，请输入。真实的时间处理链接并输入FLINK。数据的其他部分进入档案中的离线数字仓库。离线系统主要是MaxCompute，在线系统主要是全息系统。

　　因为MaxComput是一项大数据计算服务。它可以提供灵活性和快速，完整的监护权，高性能，低成本和安全性PB。平台以及通过MaxComput进行了深入分析数据和报告分析。MaxComput不仅简单易用，而且具有极致的弹性，而且具有企业 - 级别的安全功能，可以完全保护企业的数据。

　　上图是DateWorks，是阿里巴巴云的重要组成部分。DateWorks由许多组件组成，包括数据治理，数据开发，数据调度，数据调度，元数据管理和其他模块。DateWorks集成了Alibaba Cloud的不同引擎和治理能力。

　　我通常将存储分为三类。第一种交易在线交易系统。适合使用TP模型解决AP的简单分析场景。第二类分析系统，该系统经常使用分布式分布式，列，索引。通过各种压缩技术，将大量的数据分析到极端。第三类是服务系统。这样的系统可以以毫秒级的响应。它支持每秒成千上万的QP。它主要读取和更新简单。

　　HSAP通过数字模型解决数据服务问题。HSAP主要用于数据报告，数据查看，在线应用程序。可以统一的数据存储并统一地执行数据服务。此外，HSAP支持离线数据和真实的批处理导入- 实时数据的时间更新。

　　上图是一个停滞的真实时间位置的演变。无论是互动分析，联邦查询还是在线高性能点可以减少数据传输和依赖性。对于离线处理部分，我们继续使用MaxCompute。数据处理的一部分使用Flink.Avoid数据分配，授权数据服务并简化操作和维护管理。

　　Alibaba Cloud的Hologres以用于分析服务集成的真实时间仓库进行设计。在云的术语中，它连接到MaxCompute，透明和加速的MaxCompute的底层，并且在流媒体的存储中是离线的。吞吐量数据是编写，支持和可以看到的。在性能方面，随着CPU的多核化，我们优化了工程引擎（例如矢量化和所有异步），并充分利用计算资源。

　　在ALI客户体验系统CCO的真实 - 时间仓库重建中，我们整合了交易，咨询，退款等数据，并解决了风险操作，智能类，预赛车前转移以及现场调度的需求该建筑是简化和可靠的，岛屿不是岛屿，支持联邦查询，并且完整的过程被延迟。不仅可以减少数据同步，而是避免了数据延迟和数据库震颤。并且满足了10个增长的需求乘以双11流量。

　　上图反映了过去三年中ALI客户体验系统CCO的开发以及实际时间处理任务的开发。连续三年，成本增加了100％，导致了高度的操作和维护压力，而且成本消耗很大。在研究CCO的技术体系结构后，我们发现真正的时间任务具有烟囱的问题。首先，KV引擎与OLAP引擎没有连接，并且没有统一的存储空间第二，公共级别的任务链接太长了，不同实例同步和操作之间的数据已扩大，从而导致越来越高的维护成本。

　　为了解决上述问题，我们使用Hologres技术机构与Flink和DataWorks数据映射集成在一起。实现高绩效写作，允许元数据整合DataWorks数据映射。已经构建了高可靠的场景HA，以及等级的排名已经实现了混合和资源隔离。

　　通过DataHub+Flink+Hologres+MaxCompute的技术架构，CCO的整体硬件资源成本降低了30％，实际时间写作支持数千万/秒，以及数十万/秒的列表。2020 double 11，平均延迟为142ms，查询的99.99％在200m之内。此外，它还可以支持200多个实时数据大型屏幕构建，为将近300+的主要两个主要构建提供了稳定的数据查询服务。

　　Yunyun的真实时间仓库主要分为处理层和存储层。处理层主要是flink Processing。存储层具有Hologres System。只有三种类型的数据处理。首先，座位查询方法；其次，准真实 - 时间方法；第三，增加方法。通过这三种方法，已经满足了大多数场景的处理需求。

　　真实时间仓库的数据分析主要用于可视化的大屏幕，Web应用程序API，BI报告系统，真实 - 时间数据接口服务等。首先，将业务系统的结构化数据收集到真实的时间 -数据缓存平台。初步分类后，增量数据进入datahub；全部详细信息输入全息图。然后执行数据集成，flink处理增量数据以及实时更新详细信息。

　　然后，脱机任务处理表由MaxCompute导入。CDM/ADS层表是实际的物理表。该任务是由DataWorks.Finally，Front -End请求和数据的真实时间依赖性均匀安排的，所有内容均由DataWorks调度周期配置。

　　在增量数据的实际时间统计中，只要增量流，联接静态维度的增量流，增量流量流的增量流，这三种情况就可以计算数据。然后通过flink计算和datahub。广告层存储在Hologres中。Logic简单而真实。

　　如何选择MaxCompute和Hologres？这两种技术的技术原理是完全不同的。MaxCompute具有典型的数据处理方案。计算过程是异步的，并且根据需求分配资源。扩展几乎是无限的，接口标准是MC SQL。所有全息药物的任务已同步。应尽可能避免复杂的查询，以避免交叉-Multi-节点数据洗牌。基于pangu，SSD使用缓存加速度，成本相对较高。接口标准为postgresql。

　　数字仓库开发应逐渐实现降低水平和持续重复使用的目标。降低数据水平，更改敏捷适应要求，并削弱ADS，DWS和DWD的应用开发。并且不需要外部同步工具。数据传输效率比其他软件高10倍以上。

　　数据开发并非一夜之间进行，必须在各个阶段进行。每个人必须在不同阶段使用不同的处理方法。在第一阶段，它必须基于数据。指导支持，了解业务和数据。

　　在第二阶段，我们必须符合在线快速业务。

　　直到第三阶段的成熟层和不同的组织结构开始计划之前。整个系统趋于稳定，需求成为一个系统。与业务紧密相关。公共交换层开始沉淀。

　　将来，真实时间仓库的核心趋势是一个停滞的数据平台，敏捷数据开发和在线数据服务。

　　一个停滞的真实 - 时间仓库，一个系统可以同时解决相同的问题，OLAP分析和在线服务。对于满足业务的敏捷响应，数据自助分析，避免数据岛，授权数据是必要的服务，简化操作和维护管理。

　　数据服务仅是内部系统，并成为外部在线系统。不仅可以支持数据决策，还可以改善在线转换。最终，数据平台的高可用性和高并发性。低延迟/低抖动数据，安全性，安全可靠。

　　最后，数据开发是敏捷的。未来，我希望通过技术创新和空云的发声弹性来减少人类的瓶颈。向外界提供服务，以将灵活性从仓库的位置转移到业务分析师，以便以便出色的计算能力解决了人类的瓶颈。

　　原始链接

　　本文是阿里巴巴云的原始内容，未经许可就无法重印。

　　原始：https：//juejin.cn/post/7098585141953429512

上一篇：如何拍摄PDF（如何拍摄PDF格式）

下一篇：如何调整亮度笔记本XP（如何调整联想计算机的亮度笔记本）

Yunbuqian离线真实 - 时间集成数字仓库建设和实践相关文章