当前位置: 首页 > 科技观察

数据仓库、数据集市、数据湖、数据中台有什么区别?你必须做这一切吗?

时间:2023-03-18 16:54:51 科技观察

什么是数据仓库?大家都在宜家买过东西,还记得一楼的大仓库吗?不会,如果你看中了一件家具,想去仓库提货,一般都会在产品上记下编码。这段代码对客户来说肯定是没有意义的。看到这段代码无法知道它是什么产品。但是这段代码对于仓库管理员来说是有意义的,他们可以清楚的知道是哪个货架,哪个位置。当然,顾客也可以沿着货架和仓库的位置寻找商品,但毕竟不直观,挑选过程还是要上楼进行。因此,数据仓库相当于宜家的一层仓库。在这里,数据(家具)是根据特定模型组织的,例如FS-LDM(货架位置)。这种模式对客户(业务人员,数据终端用户)来说是不友好的,但是对技术人员(仓库管理员,宜家员工)比较友好,因为他按照更密集的规则来管理数据(家具),门店集中且有序,提取数据(pick-up)不需要跨库(warehouse)查找,查找效率更高。那么什么是数据集市呢?还是用这个例子,上面说了数据仓库对业务人员不是很友好。同样,总不能让客户直接去仓库吧?顾客的需求按照家具的种类进行分类,按照家庭的不同房间进行分组展示,就像宜家楼上的展厅一样。虽然也被吐槽像迷宫,但总的来说,购物体验肯定比逛仓库要好很多。因此,数据集市就像宜家楼上的陈列室。正如它的名字“Mart”一样,它是面向终端用户(客户)的数据市场。在这里,数据(家具)更容易被业务人员访问(这些组合可能是可变的,因为业务人员(客户)的需求是多变的,所以我们需要定期调整集市的计算口径(展览中的展示方式hall),经常创建一个新的datamart(装修一个新的showroom)。一旦理解了datawarehouse和bazaar的概念,其他相关的问题也就迎刃而解了,比如我们有一个数据集市,为什么还要建一个datamart?数据仓库?等等那么什么是数据湖呢?数据湖目前还没有一个特别标准的概念。在各种概念中,比较统一的一点就是数据湖存储的是未经处理的原始数据,包括结构化数据和非结构化数据。数据玩家仍然尝试用上面的例子来解释。大家都知道宜家家具需要自己组装,所以宜家的顾客还是有一些动手能力的。他们突然想知道是否所有的家具都可以拆卸成零件存放。客户可根据实际需要选择配件。自己组装?因此,数据湖是一个存储企业所有原始数据(家具零件)的存储,这就带来了一系列的问题。处理后的数据存储已经很复杂,原始数据依赖更多的管理功能。否则,数据太多太复杂难以管理,数据湖就会退化为数据沼泽。另外,如果原始数据缺乏统一的数据标准,就像不同家具部件之间的接口一样,是无法组装在一起的。因此,数据湖必须具备完备的数据管理功能,也有赖于统一的数据标准和良好的数据质量管理。那么什么是数据中心呢?数据中心中的平台并没有特别明确的定义。很难用宜家的例子来有力地说明。再看看各种数据平台:在我们传统的数据应用中,随着数据越来越商业化,其他的Timeliness也在递减。而我们的目标显然是拥有快速而优质的数据。既然每个部门的需求都不一样,为什么不让业务自己去分析数据呢?所以我们在右上角有目标状态。但这种理想状态与我们目前的数据应用存在着巨大的差距。可以用什么来填充呢?答案是数据中心。我们可以把它分为狭义的数据中心和广义的数据中心。狭义的数据中台是指一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理等。现有的数据仓库以大数据平台为数据源头,为企业提供管理数据资产、持续挖掘数据价值、持续提供数据智能服务的能力。广义数据中台是在狭义数据中台的基础上,包括顶层数据战略、数据治理体系、数据管理运营、数据文化培育和组织架构支撑,是一套持续的管理运营体系.可以说,狭义的数据中心就是为实现数据中心的使命而专门建设的。一种是允许更快的数据处理、集成和处理,例如分布式ETL工具。随着传统数据逐渐被大数据平台取代,ETL工具对大数据平台的适配也需要与时俱进,支持分布式计算、弹性计算,减少开发量。另一个是让数据更好的产生商业价值,比如数据标签管理,自助分析平台等,大家都在用数据标签,但是真正深入使用的企业会觉得建起来容易做起来难使用。没有标签管理系统,无法控制标签是否被重复处理,标签的使用率和准确度等,业务部门如果想为近期的营销活动新建标签,你有走开发流程,时效性难以保证。数据标签管理系统的建立是为了解决数据标签的使用问题。自助分析平台是方便业务人员自行进行数据分析、处理、探索的平台。结合数据沙箱,直接向业务人员提供被剥夺的生产数据进行分析,让数据更快产生价值,支持关键决策。广义的数据中心是一种辅助狭义的数据中心完成使命的机制。虽然看似“虚拟”,但却是数据中心成功实施的必要保证。这些都是必须要做的吗?这个问题要看企业的具体情况。总的来说,一个大的原则就是满足业务发展为第一要务。不要为了建设基础设施而建设基础设施。最终目标一定是解决业务需求。《人月神话》早就宣称没有灵丹妙药。当然,数据仓库、数据集市、数据湖和数据中台都不是灵丹妙药。不要以为做这些就水到渠成,数字化转型就会自动完成。总之,一个使用了一系列时尚新技术的企业不一定是数字化的领先者,一个不使用它们的企业也不一定是经典互联网时代的落后作坊。关键是认清自身数字化状态,制定数字化目标,制定数字化路径,优化场景,实现价值。新技术和各种数据基础设施就在这条路上。一套切实可行的行动计划,就是将过去银行的各种数字化尝试,以系统化、结构化的方法论进行梳理,并赋予其最新的技术架构。予以实施。