当前位置: 首页 > 网络应用技术

MaxCompute Lake介绍

时间:2023-03-06 16:28:55 网络应用技术

  简介:此内容共享了MaxCompute Lake Warehouse的引言。Shareer:Meng Shuo Alibaba Cloud MaxCompute产品专家

  视频链接:https://developer.aliyun.com/adc/series/yunqiinternet/lookback8?SPM = A2C6H.25893875.J_2523936200.2FF43919WXR1TSS

  文本:

  本文的内容将通过两个部分介绍MaxCompute Lake Warehouse。

  1.什么是MaxCompute

  2.成功案例简介Hucang整合

  HU CANG的整体体系结构主要由数据分析师,数据科学家和大数据工程师使用。主要应用程序是机器,非结构化数据分析,临时/BI,报告和学习等。DataWorks作为统一数据开发和管理的平台,主要负责全面工作,例如数据安全性,开发IDE,任务计划和数据资产管理,以确保平台的稳定操作。

  如上图所示,在整体体系结构中,我们首先连接了数据湖群集和MaxCompute数字仓库群集的网络,然后打开存储层的数据,以确保智能缓存,冷热和冷层,存储优化和加速度的加速度在计算层中,我意识到了DB级元数据的观点,以避免数据岛。

  DataWorks统一了各种数据资产,例如E-Mapreduce,CDH HBase,CDH Hive和AnalyticDB。您不仅可以在数据图中看到数据资产,还可以支持来自数据源的元素和信息。

  在阿里内部,我们实现了一定程度的数据民主化。现在,Ali组中的所有表都可以看到表名和元数据信息,以及信息的安全级别。Dataworks是Zhongtai:数据源支持可以是可以是从列表中的数据源收集,将包含在平台管理和控制中。

  目前,统一的表面和田间数据血缘只能限于单个发动机内部的交叉缘缘。

  在单个发动机内部,可以安装多个Hadoop群集以实现统一发动机的对接和管理。

  作为一个统一的数据开发平台,DataWorks可以在过程中混合MC的任务和Hadoop任务。不仅可以将临时查询入口统一发送到不同的引擎。并且可以混合不同的引擎操作。例如,数据集成操作,MaxCompute操作,MaxCompute操作,和蜂巢功课。

  互联网游戏公司的广告算法团队是Hubang的主要客户。主要应用程序是机器学习DW+MC+PAI+EAS在线模型服务。该团队拥有高度的服务和一个停滞的机器学习平台。Hadoop群集有多个团队可共享,并且集群控制是相对较高的严格,它不能在短时间内支持大型工作量的创新业务。

  基于上述需求,我们通过湖仓库将新的业务平台与原始数据平台整合在一起,即MaxCompute+DataWorks.paiss.paisssss.provide客户具有一个功能,例如一个 - 停机机器学习,模型开发,模型释放和诸如大型计算,可以提高团队的工作效率。

  Digo Company引入了MaxCompute作为计算引擎的数据,该数据不仅允许数据湖自由计算,而且还解决了先前异构计算引擎存储管理,元数据管理和权限管理的不同统一均匀性的问题。它不仅提高整体工作效率,但也降低了运营和维护成本,这在降低成本和效率方面发挥了作用。

  上图是基于Nuhe Company构建的MaxCompute+DLF+EMR的湖仓库的集成架构。底层是OSS Data Lake Storage。我们已经通过DLF构建了元数据管理,数据血液管理和数据权限管理。数据管理。

  将来,Hucang的统一开发管理平台可以实现Hucang Data的一个故障管理和治理。OSS对象存储不仅支持结构数据,而且支持非机构数据。整个平台不仅可以同步联邦数据资料来源,但也统一地数据服务和元数据仓库。

  原始链接

  本文是阿里巴巴云的原始内容,未经许可就无法重印。

  原始:https://juejin.cn/post/7098547816171044871