当前位置: 首页 > 网络应用技术

数据湖泊和数据仓库的分析

时间:2023-03-09 01:02:52 网络应用技术

  基于信息化的快速发展,数据已成为21世纪的势能。我们可以使用相关技术,例如大数据,人工智能,科学管理数据,数据分析,点击数据的潜在价值,并使数据提供数据转变为生产力的原材料,这是无限的。

  数据湖是近年来提出的一个相对热的数据存储概念。它用于在系统或存储库中存储数据或存储库中。数据湖通常是企业中的完整数据(系统生成所有数据[关系数据库中的数据,非相关数据(CSV,LOGS,XML,XML,,XML,XML,JSON),二进制文件(文档,图像,视频)...])单个存储。

  数据仓库是主题,集成,相对稳定和历史数据集,反映了支持管理决策的历史变化。数据仓库本身不会“产生”任何数据,也不会“消耗”任何数据。数据起源于外部,并向外部应用程序开放。这就是为什么它被称为“仓库”而不是“工厂”的原因。

  数据湖和数据仓库本质上是两种类型的数据架构,具有不同的选择。

  数据湖关注原始数据。通过打开基础文件存储,它为进入湖泊的数据带来了极大的灵活性。进入数据湖的数据可以结构化,半结构化,甚至是完全非结构化的原始日志和二进制文件。此外,上层引擎的开放存储也带来了更大的灵活性。各种引擎可以根据其针对的方案读取存储在数据湖中的数据,但只需要遵循相当松散的兼容性协议。实现。例如,权威管理,统一文件管理以及读取和写作的界面升级(少于文件的粒度)非常困难。

  数据仓库的重点是存储主题,集成,相对稳定以及反映历史变化的数据集。

  数据仓库的主要应用包括报告显示,标志性查询,数据分析,数据挖掘...

  数据仓库更关心企业级增长需求,例如数据使用效率,大型数据管理,安全 /合规性。在统一但打开的服务接口后,数据进入数据仓库。数据通常在预先架构中定义。用户可以通过数据服务界面或计算引擎访问分布式存储系统中的文件。数据仓库首选设计通过抽象数据访问接口/权限管理/数据本身,以换取更高的性能(存储或计算),封闭 - 环安全系统,数据治理能力等。它们都起着至关重要的作用,因此仓库正在增长。

  成本,性能,安全,治理和其他特征。随着技术的迭代,数据湖和数据仓库的边界逐渐变得模糊。数据湖泊管理其自身治理和数据仓库的能力扩大到了外部存储。坎格湖综合计划的提议是,我们可以看到鱼类和熊的爪子可以两者都有。这就是我们应该优先考虑未来发展的方向。

  湖泊的整合是一种新型的数据管理体系结构,该体系结构完全结合了数据湖和数据仓库的优势。它建立在低成本数据湖的数据存储架构上,并继承了数据仓库的数据处理和管理功能。

  湖仓库整合特征: