当前位置: 首页 > 科技观察

数据网格架构模式

时间:2023-03-16 22:15:31 科技观察

数据架构的数据网格模式企业数据网格正在成为管理企业内数据的独特且引人注目的方式。它将“产品思维”带入企业数据管理,同时在企业中实现更高级别的敏捷性和数据治理。它创造了一种近实时数据同步的“自助服务”能力,从而为实时数字化企业奠定了基础。但遗憾的是,没有一款产品可以为您带来数据网格。相反,企业数据网格由许多通用组件组成(请参阅下一节数据网格体系结构回顾)。但成功的关键是了解这些组件如何相互作用。在本文中,我将使用架构模式来描述这些交互。数据网格架构回顾企业数据网格由许多组件组成(更多详细信息可在此处、此处和此处获得)。数据产品是数据网格中的主要构建块,包含使用企业数据网格在整个组织内同步的操作、分析和/或参与数据。API用于访问数据产品中的数据。为了支持联合治理,每个数据产品都包含一个审计日志,用于记录数据更改及其管理的数据目录。企业数据网格有许多数据产品。数据产品订阅彼此的数据,以便当一个数据产品更改其数据时,使用更改数据捕获和事件流主干将此更改传达给其他数据产品。最后,企业数据目录(所有数据产品目录和数据变化的同步聚合)用于方便任何用户或开发人员查找、使用和管理整个企业的任何数据,同时也提供理解的基础整个企业的数据沿袭。图1,企业数据网格架构我们将在本文中描述以下架构模式:变更数据捕获(CDC)事件流主干(EventStreamingBackbone)数据产品目录(EnterpriseDataProductCatalog)不可用不可变变更/审计日志(不可变更改/审计日志)数据网格模式:更改数据捕获如今,跨服务和应用程序边界安全、可靠和一致地交付数据很困难。有两种方法可以应对这一挑战。首先,可以使用“两阶段提交”(2PC)等协议在多个数据库之间同步更新,但这种方法通常很复杂且成本高昂,通常只用于保持多个数据源同步绝对关键的情况.第二种方法是立即更新主数据库,同时在将来更新辅助数据库(但不在事务范围内)。当更新主数据库和辅助数据库之间的时间跨度比预期长时,??就会出现问题。变更数据捕获(CDC)是企业数据网格用来应对这一挑战的基础组件。CDC通过捕获和发布数据库事务日志中的条目来工作,但最重要的是,它在原始事务之外不显眼地执行此操作。这意味着CDC透明地捕获对操作(或分析)数据的更改,而不会影响原始应用程序或交易流。(注意:这里有更多详细信息供那些寻找CDC如何在企业中工作的详细信息的人使用)图2,数据网格模式:更改数据捕获但是CDC对捕获的“事件”做了什么。在EnterpriseDataMesh中,它将事件发布到EventStreamingBackbone(下一个模式)以在整个企业中分发。数据网格模式:事件流主干事件流主干在企业数据网格中分发事件。事件通常来自应用程序、API,在我们的例子中是CDC。然而,特别重要的是,任何已发布的事件都可以安全、可靠且近乎实时地被任何其他订阅实体使用。图3,数据网格模式:事件流主干在事件流主干中有几个核心托管实体:由JSON模式定义的事件分布在企业数据网格中。主题用于在整个企业中排队和分发事件;企业数据网格通过允许许多实体发布和使用事件来使用类似于队列的众所周知的主题。生产者向主题发布事件;企业数据网格中的生产者可以是API、应用程序或CDC。消费者消费来自主题的事件。企业数据网格中的消费者可以是订阅主题并在事件可用于处理时收到通知的任何实体或应用程序。事件流处理器可以按事件处理事件并按时间窗口聚合事件,从而在企业数据网格中启用非常复杂和强大的分析技术。代理管理上述组件以确保跨企业数据网格的事件通信安全可靠。数据网格模式:数据产品目录他们说数据是新的黄金,挖掘它会带来巨大的洞察力和财富。但在当今的大多数企业中,数据分布在组织中的许多组中。销售拥有客户数据,分销拥有供应链,财务拥有交易和账户。不幸的是,这使得查找数据变得非常困难,而且一旦找到,就更难将其整合在一起以做出全面的业务决策。结果是:决策制定缓慢、成本高昂且信息不灵通。数据产品目录(DPC)包含有关数据产品的数据(“元数据”)的信息。DPC提供的信息使任何授权人员或应用程序都可以轻松地在企业数据网格中查找、查看和使用数据产品。DPC提供了几个好处:通过实现本地所有权和问责制来简化管理。通过允许本地化和更快的决策制定来简化变更和发展。易于查找、查看和使用数据,使任何(授权)实体都能轻松查找、查看和使用数据(即“自助服务”)。图4,数据网格模式:数据产品目录数据网格模式:企业数据产品目录企业数据产品目录(EDPC)是一个存储库,它聚合来自所有本地数据产品目录(DPC)的元数据。企业数据目录用于存储有关企业数据网格中维护的所有数据的信息和统计数据(元数据),使查找、查看、使用和管理数据变得容易:数据科学家使用EDPC在企业中查找可以用于训练模型的数据位置。业务用户使用EDPC来查找他们做出业务决策所需的信息。开发人员使用EDPC来了解他们的应用程序所需的数据结构。GovernanceProfessionals使用EDPC来理解和监控整个企业的数据,从而在企业数据网格中实现联合计算治理。图5,数据网格模式:企业数据产品目录数据网格模式:不可变更改/审计日志理解数据沿袭——定义为数据所经历的更改的聚合列表——对于治理和治理目的至关重要。为什么这很重要?考虑当今的一个常见场景:AI/ML的出现现在已成为企业必备的能力。数据科学家使用复杂的模型来支持和做出关键的业务决策。然而,在许多企业中,尤其是医疗保健和金融行业,这些模型的实际可行性取决于满足可重复性和可追溯性监管要求的能力(更多信息可在此处和此处获得)。不幸的是,大多数企业不具备按照审计员或监管机构要求的方式跟踪数据沿袭的能力。企业数据网格的不可变更改/审计日志通过在企业数据网格中保留历史数据更改以用于将来的审计和治理目的来解决此需求。本地数据产品更改/审计日志会随着数据中的任何数据更改自动更新。然后将这些日志传播到企业数据产品目录(EDPC),以整合整个企业的数据更改历史记录。换句话说,EDPC包含企业数据网格中所有元素的数据沿袭。EDP??C使用此数据提供可搜索的元数据索引-明确包括对每个数据产品的不可变更改/审计日志的引用-允许轻松找到和确认数据沿袭。图6,数据网格模式:不可变更改/审计日志结论性想法企业数据网格正在成为实时数字企业的基本推动力。架构模式提供了一种既定的方式来描述数据网格交互。虽然没有开箱即用的工具,但构建您自己的组织数据网格的第一步是了解支持它的底层模式。希望本文能为您提供必要的见解,以启动您自己的企业数据网格!