当前位置: 首页 > 科技观察

企业知识图谱的机遇、挑战及解决方案

时间:2023-03-20 12:12:36 科技观察

【.com快译】作为提升企业运营效率和业务部门竞争力的必备工具,企业知识图谱(EnterpriseKnowledgeGraphs,EKG)应用越来越广泛它可以有效地用于协调组织内部和外部数据的不同场景。然而,作为事物的另一面,心电图的劣势主要体现在:业务部门可能难以对其进行开发、维护和扩展。本文介绍EKG当前面临的各种挑战,以及如何使用原生多模型数据库提供的灵活数据表示来解决这些挑战(见图1)。图1:多模型知识图谱可以将多个数据集成在一个系统中来表示什么是企业知识图谱?目前,知识图谱已经为谷歌、苹果、Facebook、Twitter、微软、Linkedin、Ebay、阿里巴巴等公司创建了数据。万亿美元的财富。他们主要通过开发自己的技术栈来支持知识图谱。与开源的心电图相比,商业图数据库产品的开发是基于行业或企业特定的知识模型来协调组织的内容、数据和信息资产。心电图通常代表一个组织的知识领域,这些组成部分可以被人类和机器理解。它是本组织知识资产、内容和数据的参考资料集。此类集合利用某种数据模型来描述人、地点、事物以及它们之间的关系。虽然很多企业已经部署了各种类型的业务知识图谱(BKG)解决方案,但并不是所有的图都可以称为心电图。EKG的主要驱动力来自:构建定制的知识图谱以满足特定的业务需求。如果说BKG主要是为了支撑那些细分的业务用例,那么EKG就是为了给多个业务部门,以及多个用例提供高质量的统一数据。在下一节中,我们将讨论利用EKG支持业务用例时面临的挑战和机遇。EKG挑战与机遇对于业务部门而言,由于EKG包含来自多个数据源的高净值数据,因此可以节省整合数据源以支持业务用例所花费的时间和精力。许多当前的EKG解决方案能够根据企业的概念模型协调多个不同的异构源系统。这些原始数据通常暂时存储在Hadoop/HDFS、S3等分布式存储系统中,中间件集群将这些数据抽取并转换(ExtractTransformLoad,ETL)到图数据库集群中。由于心电图可以支持企业级搜索等应用,因此需要将心电数据提取和转换为各种格式(例如:文档、表格、键值和图形)以支持业务应用。图2:当协调地图和提供EKG数据通常无法充分发挥其潜力时,可能会出现不匹配,因为公司通常难以将数据协调为EKG所需的复杂、多源数据。同时,业务用户不仅难以应对复杂且陌生的知识图谱表示,而且缺乏使用它们的工具。尽管企业可以通过努力将几十个甚至上百个数据源整合到一个心电图中,解决数据来源、权限保留等数据治理问题,但业务部门在充分利用高质量的心电图数据过程中面临着巨大的挑战“最后一百米”。事实上,问题的本质在于,从数据到图形的“全有或全无”转换过程会导致源数据表示与心电图不匹配,以及心电图与业务想要处理数据的方式不匹配(见图2)情况。基于多模型的EKG通过允许知识图中的表示多样性来减少数据不匹配。因此,图形将具有增量协调的灵活性,并且业务部门将能够根据需要对数据执行最少的转换。将多个数据源协调成一个图表的挑战企业需要协调大量不同的数据源。通常,统一的相关数据源越多,对业务的潜在价值就越大。当然,将数据与图表协调的成本也会随着数据源的数量呈指数增长。这就是为什么企业渴望找到能够自动编排数据并通过敏捷应用程序按需提供数据的编排方法。图3:EKG的数据协调工作量会随着数据源的数量呈指数增长。可见,我们需要通过复杂的知识表示来表达不同数据的细微差别,规范图结构。知识图谱中所有使用和联合的源数据都需要转化为单模型图数据库中的图结构。当然,将源数据映射到这些复杂的知识图表示需要时间、精力和知识。如下图4所示,由于需要大量的资源,心电图生成过程可能会影响图数据库的可扩展性。在实际应用中,总会有海量数据超出图数据库的可扩展性,尤其是在存储key-value、文档等实际数据时。图4:图形处理数据的复杂度与文档和键值的处理能力之间的关系。)和图形数据模型。例如:当纯粹用图表表示时,企业内部的网络安全信息每年以数万亿条“边”的速度增长。那么,在将图、文档和连接组合之后,同一个企业网络安全图可能由数十亿个“边”来表示。随着公司寻求减少开发和维护心电图所需的工作量,他们经常问自己以下问题:我们能否自动对源数据进行分类、映射并将其转换为知识图谱?我们可以制作心电图吗?我们可以搜索数据源、知识图谱,然后整理数据吗?鉴于目前还没有自动将数据协调成图形的实用解决方案,EKG必须是一个整体的图形模型,并且所有数据必须转换为图形才真正有用。同时,通过允许包含其他类型的数据模型,可以减少心电图的部署和维护工作量,增加心电图的潜在规模,提高心电图开发和维护的灵活性和敏捷性。此外,通过将其他数据模型的知识图存储在同一数据库中的分段数据和图,我们能够以敏捷和迭代的方式协调图。使EKG易于使用的挑战如上所述,业务用户难以应对复杂且不熟悉的知识图表示,并且缺乏使用它们的工具。在实践中,他们经常遇到EKG问题,例如:它可以与我现有的工具一起使用吗?我的开发人员会知道如何使用它吗?我怎样才能找到相关数据?数据?如何获取需要的数据格式?上述挑战的本质源于EKG与企业需要使用和处理数据的方式不匹配这一事实。例如:某企业可能需要2017年1月至2019年12月的所有交易信息,并要求这些数据以特定的文档结构(如JSON文档集合)的形式提供。由于他们不想额外学习或使用图形查询语言来执行此操作,因此他们需要“数据购物”体验。即:通过访问心电商城,通过多个过滤器在心电商目录中搜索数据,然后根据心电商城推荐的数据集对已有数据进行补充,并指定获取数据的方式和时间.多模型企业知识图谱多模型企业图谱(MMEKG)允许用户在同一生态系统中混合和管理数据源、EKG和数据表示,从而解决上述各种问题。问题。减少时间和成本MMEKG能够按需执行图形的延迟转换。多模型图能够通过允许在边和顶点中包含不同的文档来减小图的大小。因此,也可以使用敏捷的迭代过程开发EKG。图5:多模型图的使用可以更有效地协调知识图谱的数据归约计算资源。如下图6所示,EKG解决方案通常需要使用单独的数据系统进行阶段、图形ETL、图形管理和数据传输以供业务使用。MMEKG可以有效消除源数据、知识图谱和选定业务数据之间的不匹配。它不仅可以在同一系统中管理数据,还可以减少转换的延迟,并使所有数据都可搜索。可以看出,它降低了与为舞台、转换、图形和业务应用程序使用单独集群相关的成本(参见图7)。图6:典型的EKG生态系统使用多个系统进行阶段和转换图7:源数据、EKG和业务数据可以在同一个多模型数据库中进行管理业务应用数据可以在同一个数据系统中搜索和查找,因此业务用户可以使用自己格式的数据,而无需了解复杂的企业图形模型。数据沿袭(datalineage)也使用相同的多模型系统进行数据阶段、转换和交付,因此跟踪数据沿袭要容易得多。增强现有EKG拥有RDF(ResourceDescriptionFramework,资源描述框架)类型EKG的企业可以充分保留现有投资并在MMEKG中加以利用。由于多模型图是基于标记有向图的RDF的超集,模型数据库可以吸收RDF的本体和RDF的EKG。类似地,多模型图也包含属性图,从而有助于同化基于属性图的心电图。图8:多模型心电图提取RDF,以及基于属性图的心电图摘要多模型可谓是心电图的实用技术。它的优势包括让EKG的多源数据更顺畅,以及提高EKG数据在业务案例中的使用。可用性,通过混合模型实现更高的可扩展性,并降低EKG生态系统的复杂性。原标题:TheMulti-ModelKnowledgeGraph,作者:ArthurKeen&JanStuecke