Datafabric(数据结构)实现了统一的数据管理架构,使企业受益于可扩展和集成的数据能力。数据编织被定义为一种能够基于网络架构而不是点对点连接来处理数据的新兴方法。这使得从数据源级别到分析、分析结果生成、协调和应用的集成数据层(结构)成为可能。本文详细阐述了数据编织、其关键组件和最佳实践。什么是数据编织数据编织是一种新兴的基于网络架构而不是点对点连接的数据处理方法。这使得从数据源级别到分析、分析结果生成、协调和应用的集成数据层(结构)成为可能。该方法在底层数据组件之上放置了一个抽象层,使信息和分析可供业务用户使用,而无需重复或强制性的数据科学工作。随着企业数据需求的发展,公司正在努力应对企业数据的复杂性、异构性,以及它分散在企业环境中的多个应用程序和操作环境中的事实。据Statista预测,到2024年,全球数据的产生和消费量将超过149兆字节,其中非结构化数据将占到80%左右。数据编织被视为解决不断变化的企业数据需求这一难题的答案。它改进了数据仓库和数据湖的旧概念,引入了一种使整个企业能够统一利用数据的架构。因此,Gartner将数据编织列为2019年最具影响力的10大数据和分析技术之一,并表示到2022年,企业将被迫重新设计其基础架构以支持自定义数据编织设计。让我们探索数据编织的主要功能和企业应用,以了解数据编织的工作原理。数据编织的主要功能:(1)数据编织支持非结构化数据,包括物联网。企业正在迅速扩展其设备网络范围,超越内部服务器和固定工作站。从自带设备(BYOD)和WFH到现场的传统手持设备和物联网(IoT),连接设备的范围正在扩大。DataWeave与所有这些端点接口,处理通过传感器收集的非结构化数据,并以最小的后端复杂性提供数据分析结果。(2)数据编织可以大规模处理信息。企业数据量不断增长,能够有效调动其数据的组织将获得竞争优势。数据驱动的洞察力和决策可以推动新的商机、改善客户体验并实现更高效的工作方式。数据编织使自动提取和利用原本不会被使用的数据成为可能。(3)数据编织兼容混合托管环境。数据编织的关键特征之一是它独立于环境、平台和工具。它支持与技术堆栈中几乎每个组件的双向集成,以创建交织或类似结构的架构。这非常适合多云或混合云企业,因为在这些企业中,数据计划需要在所有云中统一一致地运行。该解决方案从分布在不同环境中的多个来源获取数据,以创建一个综合“结构”来生成数据分析结果。(4)数据编织加速数据分析结果的生成。这些解决方案可轻松处理最复杂的数据集并缩短数据分析时间。由于其架构,有预建的分析模型和认知算法来大规模和高速处理数据。例如,NASA与一家名为Stardog的数据编织提供商合作,将数据分析结果的时间缩短了90%。(5)与传统仓储模式相比,数据编织需要更少的IT干预。数据编织的一个重要特征是它依赖于一组预先构建和预先配置的组件将原始数据转换为经过处理和可操作的信息。这些系统通常托管在云端,由经验丰富的服务提供商管理。这意味着IT部门无需参与实施和维护数据生产计划。(6)技术用户和非技术用户都使用数据编织。DataWeaving的架构使其适用于各种用户界面。可以构建清晰简洁的项目列表,以便业务主管可以快速理解和利用信息。数据编织还附带了复杂的工具,允许数据科学家进行深入的数据探索。实施数据编织的主要目的是加强数据治理和数据安全。我们还可以将解决方案与新的数据源、分析模型、用户界面和自动化脚本相集成,以改进数据的使用。数据编织技术的最新进展意味着我们甚至可以使用图形模型来处理元数据,这样它不仅适用于被动资产,而且与业务用户相关。它的架构允许企业扩展以添加新功能、添加安全覆盖和执行其他关键功能,而无需缩小核心数据库。DataWeave的关键架构组件DataWeave是一个打包的解决方案,它利用七个关键组件从数据中提取分析并在整个企业中提供统一的服务。这些关键架构组件包括:数据编织的关键架构组件(1)提取数据源:数据源是系统产生的信息,将被数据编织处理、存储和利用。这些来源可能存在于企业内部,例如企业资源规划(ERP)软件、客户关系管理(CRM)软件或人力资源信息系统(HRIS)。我们可以连接到非结构化数据源,例如支持PDF和屏幕截图的文档提交系统,以及物联网传感器。DataWeaving还可以从提供公开可用数据的外部系统(例如社交媒体)获取数据。最后,企业可以购买第三方数据仓库来完善现有的内部信息(2)知识图谱的分析和处理:数据编织得到的很多数据都是半结构化或非结构化的,包括来自不同来源的元数据。分析和知识图谱系统将所有数据类型转换为一致的格式,以便可以毫无瓶颈地进行处理。具体来说,用户需要能够查看和理解企业中各种数据源之间的关系。这就是为什么在我们可以继续处理数据分析结果之前,处理分析是数据编织的关键架构组件。(3)获取数据分析结果的高级算法:对于该组件,我们可以使用AI/ML算法进行持续数据监控和实时分析结果生成。AI/ML的使用大大减少了处理时间,帮助我们更快地得到数据分析结果。数据必须与运营用例(例如劳动力优化或特定位置的业务决策)保持一致,以呈现最相关的分析。此外,出于安全和合规原因,必须记录所有活动。(4)使用与交付接口连接的API和SDK:这可能是数据编织中最重要的组件,使其不同于传统的数据湖或数据仓库。DataWeave在其架构主干中内置了集成接口,可以与任何前端用户的用户界面交互,在最需要的地方提供数据分析。为此,它使用应用程序编程接口(API)和软件开发工具包(SDK),以及预构建的连接器。理想情况下,它应该有两个集成模块——一个是IT专业人员可以用来设置复杂集成的DIY功能,另一个是业务用户通过自助式商业智能(BI)工具直接从数据编织中获得的数据编织分析技能。(5)数据消费层:数据消费层是指在前端实现数据消费的面向用户的接口。有几种方法可以调整该层以获得数据编织投资的最大回报。例如,业务应用程序中的嵌入式分析可以帮助用户在其工作流程的上下文中获取信息。虚拟助手和聊天机器人可以帮助进行自然数据探索。此外,实时事件列表可以让运营经理实时了解企业中的关键事件。数据编织的美妙之处在于它可以轻松支持所有这些需求。(6)数据传输层:传输层的作用是帮助数据在结构中移动。强大的数据传输层不仅可以在系统之间不间断地移动数据,还可以通过端到端加密实现严格的安全性。该层还可用于保存已删除重复数据,以便在移动过程中不会创建新副本。它还应该保护数据编织的不同组件强制执行的压缩效率,以便数据更新不会在运动中发生,从而导致意外的低效率或安全风险。(7)托管环境:虽然这个组件在技术上是DataWeave架构的外部,但它会影响其核心组件。我们可以选择在本地或云端托管数据编织。在后一种情况下,它可能会受益于基于云的数据管理工具,例如Snowflake和容器。无论是Oracle本地、SAP本地还是其他任何地方,本地数据编织都应该与非云IT工具集成。只要您与合适的提供商合作,数据编织也非常适合多云和混合云环境。虽然我们生活在一个数据驱动的时代,但太多的时间花在了维护日常任务上,而没有足够的时间花在增加价值上。Gartner在2020年进行了一项名为《数据管理挣扎于平衡创新和控制》(DataManagementstruggletoBalanceInnovationandControl)的调查,发现数据团队只有22%的时间花在了创新上。其余的精力用于维护生产计划、培训用户和其他非增值任务。DataWeaving利用上述七个组件来微调这种平衡,并通过消除数据管理中的后端瓶颈来释放顶尖人才。企业实施和管理数据编织的8大最佳实践全球数据编织市场将从2020年的11亿美元增长到2026年的37亿美元,增长两倍多(据全球行业分析师称),表明该细分市场的增长需求强劲。如果要实施数据编织架构以优化企业数据的使用,这里有一些最佳实践:数据编织管理的最佳实践(1)采用DataOps流程模型。(2)主动避免另建数据湖。(3)了解规则和监管要求。(4)部署基于图形的分析方法来发现相关性。(五)构建面向海量开发者的数据市场。(6)利用开源技术。(7)支持本地代码生成。(8)使数据编织适应边缘计算。结论随着数据利用率的提高,必须逐步打破“数据孤岛”,为互联网企业让路。数据编织的实现是这一过程中的一次重大飞跃——事实上,它是自1970年代关系数据库发明以来最具革命性的突破之一。那是因为数据编织不仅仅是一种技术或产品。它指的是架构设计、结构化流程以及数据和业务运营紧密交织的思维方式转变。以下是企业必须牢记的三个关键点:(1)数据编织可以显着减少花在常规、非增值数据管理任务上的时间——但它可能需要相当大的初始投资。(2)数据编织有七个关键架构组件。在API和SDK层最需要注意的是不要局限在数据湖的范围内。(3)根据定义,数据编织是无限可扩展的,也就是说随着企业的成长,架构需要更新升级。数据编织是使每个流程、应用程序和业务决策都由数据驱动的重要因素。选择合适的供应商以确保您的业务在未来取得成功。参考资料[1]https://www.toolbox.com/tech/big-data/articles/what-is-data-fabric/[2]https://www.toolbox.com/tech/big-data/articles/what-is-data-governance-definition-importance-and-best-practices/[3]https://www.toolbox.com/tech/big-data/articles/what-is-enterprise-data-management-edm-definition-importance-and-best-practices/[4]https://www.toolbox.com/tech/big-data/articles/best-data-governance-tools/
