当前位置: 首页 > 网络应用技术

大数据在线脱机集成解决方案的最佳实践

时间:2023-03-08 14:27:07 网络应用技术

  简介:本文重点介绍了大数据产品集的一般解决方案,即大数据+离线计算集成解决方案的在线计算,并解释了如何通过实际案例模拟在特定项目中实现此通用解决方案。

  专注于实施此计划的业务是中央互联网信息办公室网络安全紧急指挥中心的相关业务。由于需要处理庞大的网络数据流量以及实际时间和离线大数据计算和分析的要求,因此它提供了这种离线集成解决方案来解决此离线集成解决方案计划。

  混合云项目的主要业务概况如下:

  流量收集技术是监视网络流量的关键技术之一,为流量分析提供数据源。为了有效地分析复杂企业网络中的网络流量。

  Internet探针(网络探针),收听网络数据包的网络探针称为Internet Probe.DATA数据包捕获,过滤和分析,可以在“ Internet Proce”上实现。

  本文主要为交通收集业务建立一个方案。

  首先查看业务结构:由于大量数据,有很多产品,并且数据链接相对复杂。

  该实践计划基于业务体系结构图的抽象,并获得了以下图所示的技术体系结构和主要过程。

  从抽象业务流程图中,我们可以看到可以看到在线计算和离线计算的两个主要链接。

  程序实施

  数据建模

  业务数据的量相对较大。为了促进处理和分析,首先执行数字仓库建模,并执行数据分层处理以促进实施多维分析并提高整个系统查询的效率,并减少查询渗透。

  雪花模型建模

  根据对交通收集业务的分析,它更适合数据仓库-Snowflake模型的通用建模方法。根据业务特征和雪花模型模型模型原理,数字仓库建筑的完成如下:

  从上面的模型中,有两个因素,它们分别描述了收集器流量信息和收集机规则的规则,而其他三个维度将分别记录操作员,收集机器和区域维度,以促进后续业务分析。

  数据分层

  离线和在线引擎的数据量非常大。如果您直接将BI停靠进行数据分析,则查询效率将非常较低。因此,需要数据来分层数据,并且数据源的量通过ETL并洗涤。根据数据域和应用程序域选择ADS层。

  对于当前业务,可以执行数据,如下:

  数据分层后,完成数据建模,然后将随后的焦点用于离线链接的实现。

  离线链接实现

  在此示例中,离线链接主要对以下两个客户方案感到满意:

  离线链接主要是处理和分析大量数据,并且冷热数据存储不高。真正的时间要求不是很高。离线链接的实现主要是与基础核心相关的。数据链接情况如下。本文通过自行构建的数据模拟DataHub数据源。

  具体的实施步骤如下:

  1.创建ODPS项目

  首先创建一个新的ODPS任务云帐户和配额组,然后创建ODPS项目。

  2.创建一个基本项目

  创建一个基本项目,创建工作空间并绑定刚创建的ODP项目。

  3.离线计算实施

  A。根据数据建模部分的设计,完成相关数据表的创建。

  因为还有更多表要创建,所以此处发布了ODS层的DDL事实表:

  然后以相同的方式创建每个数据层的数据表。

  然后创建一个维表,DDL示例如下:

  然后以相同的方式创建其他维度。

  b。通过数据处理,完成数据建模和数据层

  首先,通过数据清洁操作,处理源层数据,例如,代码如下:

  接下来,DWD层数据的数据收敛,代码的代码如下:

  接下来,使用应用程序域结构的数据表用于分析和查询应用程序域。示例是每个省收集机中的事件总数:

  最后,通过离线同步,应用程序域的数据与交互式引擎ADB3.0同步,如下:

  完成后,每个节点通过基础的工作流任务映射连接,单击“运行”按钮以触发实例运行,并生成应用程序域数据以进行后续分析和查询。特定的任务表如下:

  您可以看到操作是成功的,然后将任务图提交到生产环境中,并且可以将每日自动生产数据用于生产分析。

  4.结果分析和实施

  最终的应用域数据通常与交互式引擎同步进行查询和分析。此处选择的交互式引擎是ADB3.0。

  A。配置数据源和数据集

  数据源配置

  数据集配置

  可以看出,我们在数据集中具有维度和事实表的关联。

  b。生成仪表板图

  配置数据集可以通过简单的配置来结论:每个省的每日收集计算机事件,每个操作员操作员的字节的平均每日收集。

  客户可以通过仪器板的数据分析收集机的网络流量。以上是离线链接的总体实现。

  实时链接实现

  此示例中的真实时间链接主要满足应用程序域客户场景,如下所示:

  每天的真实时间收集机器事件和统计数据一起

  与离线链接不同,真实的时间链接着重于信息处理分析的客户的高度效果和可操作性要求。例如,客户希望看到分钟级别的数据波动和数据转换,这很方便及时做出决策。目前,需要实时计算以满足需求。实际 - 时间计算链接大致显示了下图:

  1.实时计算数据结构数据量的真实时间计算相对较小,并且数据的计算相对较小。在此示例中,没有进行复杂的数据建模。

  A.Datahub真实 - 时间数据生成

  因为这是一个真实的时间链接,所以本文使用组中的ASE工具将真实的时间数据连续生成DataHub,并让Flyink订阅DataHub数据以进行真实时间计算。ASE将自动创建一个DataHub主题(ASE_DR_DATAHUB_TOPIC01)以传输数据。如下图所示,ASE_DR_DR_DATAHUB_TOPIC01继续接收真实的时间数据。

  接下来,您需要创建另一个主题(ase_dr_dr_datahub_topic02),以在截断处理后接收数据。

  b.datahub真实 - 时间数据订阅

  构建并接收到数据之后,datahub的主题(ASE_DR_DATAHUB_TOPIC01)之后,您需要创建订阅以允许其他应用程序实时获取DataHub数据。

  2.实施实时计算以接收真实时间数据后,Flink需要实时计算数据。具体的实施步骤如下:

  A。创建弗林克操作

  输入实时计算Flink产品,并创建一个新的实时计算操作。

  b。实时计算

  通过Flink计算源数据。此示例主要是完成数据清洁操作。相关代码如下:

  接下来,在ASE_DR_DATAHUB_TOPIC02中创建同步任务,以将实时计算结果的结果同步到ADB3.0。

  请参阅相应的交互式引擎ADB3.0的相应表,该表表示同步成功。

  3.结果分析和实施

  Real -Time计算链接使用DATAV显示和分析Real -Time大屏幕显示屏,然后输入Datav产品接口。

  A。添加数据源

  输入基本信息后,完成数据源的添加和数据集的创建。

  添加了数据源:

  数据集创建:

  b。创建并配置应用程序大型屏幕分析仪

  通过创建和配置大型屏幕分析仪,可以绑定真实的时间数据源,并且可以配置大型屏幕显示内容和表单。

  C。切换到普通的大屏幕模式以观察计算结果的实际时间变化

  在分析模式下完成数据源并显示内容配置后,切换到普通的大屏幕模式以进行显示配置,并设置真实的时间刷新间隔。

  在预览模式旁边,您可以看到结果实时变化。调试还可以后,单击已发布。

  以上是大数据在线和离线的两个最常见的计算链接,它们在实际客户场景中应用于地面。

  原始链接

  本文是阿里巴巴云的原始内容,未经许可就无法重印。

  原始:https://juejin.cn/post/7096303974508134437