当前位置: 首页 > 科技观察

数据仓库:过去、现在和未来

时间:2023-03-16 22:20:25 科技观察

经常接触到数据仓库建设的需求,现有的大数据系统也希望基于大数据构建数据仓库,但是以Hadoop为基础开发的软件core适合OLAP数据分析需求,OLTP等分布式数据库系统也如火如荼。在企业数据信息数据集成的过程中,不同的数据源往往被放置在不同的数据库系统中。没有数据仓库的标准化建设,就无法实现跨部门的数据协同,打破数据孤岛。分布式系统可以帮助解决这些问题。真正理解数据价值的人都知道,构建统一的数据中心、数据仓库,整合行业数据,可以进行多维度的数据分析,数据驱动决策,助力企业创新。目前,新技术已在金融、电子商务、广告等行业得到大规模应用,并取得显著成效。如今,企业级数据分析平台已经发生了翻天覆地的变化。发生了什么?好吧,对于传统的数据仓库,您拥有各种数据源。您正在收集、清理和整合数据,以便将其呈现在您的数据仓库中,用于统计分析、预测分析、商业智能和其他工作。好吧,现在随着时间的推移它变得更加复杂。我们有云,我们有移动设备、社交媒体数据、机器数据、传感器数据。数据源越来越多,数据爆炸式增长,非结构化数据、半结构化数据、结构化数据。有大量的大数据演示文稿,您会在其中看到谈论如何处理PB级数据以利用这些新数据分析技术的幻灯片。但对我来说,这没有抓住要点。什么是数据仓库?为什么企业在数据仓库上花费更多?这是因为它不是数据量和速度的问题。随着发展,我们只需要增加硬件就可以增加我们数据处理的规模,这就是分布式系统的强大之处。在万物互联时代,数据分析的复杂性随着数据的多样性和异构性而增加。我们的需求是关联和整合这些数据。然而,我们现有的数据分析工具,Hadoop或Spark,并没有带来任何神奇的解决方案。我们还在努力解决同一个问题:如何从不同渠道获取数据,然后将它们关联起来,让企业让数据说话,让数据驱动决策。为了解决这些问题,我们需要依赖更多的新工具。数据仓库的发展利用新技术使我们能够更好地解决实际业务问题。那么,下面我们就来看看不同的技术是如何帮助我们解决数据相关的需求,为业务提供数据支持的。OLAP场景的Hadoop方案和OLTP场景的NewSQL方案。管道数据分析我们看到了一个有趣的现象。几乎每家公司都建立了数据管道。随着新数据的到来,他们使用NoSQL数据库来存储文档数据。它就像一个具有无线能力的数据库,具有很好的扩展性,也可以对大量数据进行高速查询和搜索。我们可以看到很多大规模使用MongoDB、Hbase、cassandra数据库,以及NewSQL的开发。随着数据多样性的出现,出现了许多新型的数据库。对新数据分析的需求越来越高,对数据多样性的探索带动了数据库系统的蓬勃发展。国内数据库也有了长足的进步,可以进入国际顶级数据库会议发表论文。2017年,腾讯的开源项目VLDB也发文了,而作为IOE的发起者,阿里云也在如火如荼的开发数据库服务,比如:PolarDB、蚂蚁金服金融级数据库分布式数据库OceanBase都被黑了科技级产品。为了兼顾云端OLTP和OLAP的数据分析引擎,各大云厂商阿里云、腾讯云、XX云都在大力推广各自的数据库技术,同时也与开源数据库厂商广泛合作。底层的数据库系统,尤其是NewSQL的巨头们,也长期在招聘相关职位。由此可见,目前分布式OLTP/OLAP数据库的发展势头一定是与Cloud相结合的,只有云化才有机会大赚一笔。否则,在开源数据库的生态下,底层基础软件的出路在哪里?分析型数据库的发展我们根据接触过的公司或产品,列出RDBMS->MPP->HADOOP->NOSQL->NEWSQL的主流系统。我个人知识有限。如果列表不全面,欢迎补充。RDBMSMPPHadoop生态系统NoSQLNewSQL虽然NoSQL因其性能、可扩展性和可用性而广受赞誉,但其开发和数据重构工作量大于SQL存储。因此,一些人开始转向NewSQL,它结合了NoSQL的优势和SQL的能力。OLAP场景实现最好的Hadoop生态。面向OLTP场景的NewSQL数据库开发。