数据仓库历史悠久,这里的基本思想是大多数企业构建各种应用程序来自动化其基本业务流程,这些流程独立发展,从而产生多个版本的数据。过去,不一致的数据一直让那些试图了解不同产品线或地区的销售收入或利润率的人头疼。从本质上讲,数据仓库的最初概念是从各种事务系统复制关键数据,解决不一致并生成易于分析的干净数据集。这个过程通常使用定期运行的程序来完成,这些程序将在摄取新数据时使数据仓库保持最新。数据仓库环境的历史有许多组件需要确保数据仓库环境的正常运行。它需要一个数据提取器,并且数据仓库必须设计有自己的模式。现代数据仓库还需要额外的程序来通过业务规则解决后台数据的竞争版本,以确定数据主版本的层次结构。这里的历史性挑战是,数据仓库就像一座建立在不断变化的底层操作系统之上的建筑。当这些系统发生重大变化时(如重组或业务收购),数据仓库的结构需要改变以反映底层业务的变化。如果业务变化的步伐太快,数据仓库可能会在一段时间内变得不可靠,从而削弱业务对它的信心。为了解决这个问题,数据集市应运而生。然而,除非数据集市与数据仓库中的数据同步,否则它们可能会与之竞争并产生多个版本的数据。为了解决这种不稳定性,出现了各种数据仓库设计,包括星型模式、雪花模式以及技术专家BillInmon和RalphKimball提倡的其他模式。然后主数据管理领域开始出现,企业希望收集越来越复杂的业务上下文数据集,通常使用可以与数据仓库结合使用的单独数据库。竞争不同版本的产品层次结构需要业务投资,因此数据仓库中的数据治理提供了对此类主数据进行业务控制的流程。除了庞大的数据量之外,增加的复杂性也是一个问题。最终我们开始看到更复杂的查询和分析工具,它们本身通常需要自己的元数据层来表示数据仓库的业务视图。同时,提取、转换和加载(ETL)数据催生了数据集成工具行业的增长。这些工具使流程自动化,并拥有自己的专有脚本,可以添加需要在数据仓库环境中处理的额外组件。数据仓库现代化多年来,人们一直在尝试组织企业数据仓库环境的组件。为了使日益复杂的数据仓库现代化,供应商已尝试生成预构建的模板和数据仓库生成器,例如Idera、Magnitude和Attunity。尽管在某些用例中取得了成功,但这些都没有取得市场主导地位。此外,DevOps和DataOps致力于帮助数据仓库模式发展,以及使数据仓库环境以受控方式运行的其他方面。尽管创新供应商付出了巨大努力,但数据仓库现代化没有捷径可走。大型企业已对企业数据仓库及其相关环境进行了大量投资,但庞大的流程、程序、脚本和模式仍然是阻碍进步的重大障碍。另一个障碍是克服数据库管理员和IT人员当前实践的惰性。由于企业的大部分分析都依赖数据仓库,因此迁移可能很困难。重组可操作的数据仓库环境就像机械师试图为行驶中的汽车升级引擎。尽管如此,数据仓库自动化工具和现代DataOps市场正在尽最大努力帮助企业实现数据仓库环境的现代化。
