业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何运作或如何改进的见解。这是通过从数据仓库中提取数据的商业智能仪表板实现的。业务用户在尝试关联来自数据仓库中不同仪表板的信息时开始面临挑战。这通常需要求助于数据工程师,他们需要在数据仓库中创建数据集市——由多个星图组成,这可能导致数据丢失或数据重复。这种复杂性促使FrancescoPuppini探索能够更好地支持最终用户的数据仓库模式设计。他在《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》与BillInmon合着,由TechnicsPublications出版,探讨了这个问题。什么是星图和雪花图?在讨论统一星型模式之前,让我们先看看星型模式本身。星型模式是维度建模的最简单形式。模式由事实和维度组成。事实以事件为中心,而维度是指与事实相关的信息。维度以星形方式与事实相关。此外,雪花模式将维度与其他维度相关联并继续分支。Puppini认为,当数据没有问题时,雪花模式是最合适的。“但数据总是有问题,”他说。UnifiedStarSchema的好处Puppini说:“当你将数据写入数据库时??,它是以某种方式组织的。但是当你读取它时,最好有不同的方式来组织它。”星型和雪花模式对最终用户的主要挑战是业务用户在寻找洞察力方面缺乏独立性。为了使用此类数据仓库模式设计对数据执行复杂查询,最终用户需要数据工程师手动关联数据表。它是Puppini说,就像每次需要一杯水时就打电话给水管工一样。此外,当不兼容的表相关时,将事实表与联接集成通常会导致重复数据。数据重复问题的核心是扇形陷阱,他说。当两个或多个一对多连接链接时会发生扇形陷阱。这会与数据发生冲突,从而导致数据重复。从历史上看,这已通过手动重复数据删除或这些临时连接解决。UnifiedStar的关键Schema是连接事实表的桥梁。在书中,Puppini将桥接比作电话总机。在UnifiedStarSchema中,桥梁位于中心,所有事实表和维度表都在其周围发现它,每张桌子都连接到桥上。这样就限制了对数据的转换次数。“当今数据仓库的问题是它们不堪重负并且过度转换,”Puppini说。通过使用桥并执行联合而不是连接,这允许用户无需转换即可访问数据。他说,“你转换数据越多,就越混乱。我只是采取尽可能少的步骤将信息整合在一起。”单击此处查看BillInmon和FrancescoPuppini的《The Unified Star Schema》,TechnicsPublications统一星型模式的摘录,以了解有关统一星型模式部署和用例的更多信息。
