当前位置: 首页 > 科技观察

知识图谱与图数据库的关系终于搞明白了

时间:2023-03-18 17:03:57 科技观察

01什么是知识图谱一、搜索引擎方法的创新2012年5月6日,谷歌发布了新一代“知识图谱”的“智能”搜索功能。传统的搜索引擎搜索数据,更多的方法是基于关键词匹配。近两年,我们在各大搜索引擎上搜索信息时,比如关键词“JamesWatt”,你会发现在某个地方出现了一些卡片。信息卡片的方式是搜索领域的一大创新。它是基于知识图谱的方式。2.知识图谱的本质传统的基于关键词匹配的搜索引擎是在匹配关键词后展示信息。如果对信息的形式进行转化,比如提取人物、地点、时间等信息,构建知识图谱结构,回答“谁是JamesWatt的校友?”等问题。可以推断。知识图谱已经从原来的关键词匹配和内容匹配的方式转变为推理和追踪信息的方式。知识图谱本质上是一个基于图的语义网络,表示实体之间的关系。02多维知识图谱研究知识图谱相关领域包括知识工程、自然语言处理、数据库、机器学习等知识工程:如知识库构建、基于规则的推理等自然语言处理:如信息提取、语义分析等数据库:如RDF数据库系统、数据集成、知识融合等机器学习:如知识图谱数据的知识表示(GraphEmbedding)等1.知识工程知识图谱是一种新的Web和大数据时代知识工程的发展形态知识工程的核心是知识库和推理机。知识库包括以下几个方面:领域本体构建:以形式化和领域特定的方式对共享概念系统进行清晰详细的描述。知识抽取:通过从海量数据中抽取信息获取知识。知识融合:通过将多个相关的知识图谱进行对齐、关联、合并,形成一个有机的整体,提供更全面的知识。①知识图谱数据模型RDF基于领域本体的构建,有几种基本的数据模型,如常见的RDF数据模型。RDF数据模型以三元组的方式描述了知识库中的每一个本体及其属性,以及一些相关的属性值,以及它与其他本体的关系,即主语、谓语三列和对象表。RDFsRDF数据模型的变体,在RDF数据层的基础上引入模式层,定义类、属性、关系以及属性域和值域来描述和约束资源,构建最基本的类层次系统和属性系统,支持简单的下位词推理。本体语言OWL进一步扩展了RDFs词汇表,可以声明类间互斥关系、属性传递性等复杂语义,支持基于本体的自动推理,提供了一套适合网络传播的描述逻辑语法。机器友好,但认知复杂性限制了工程应用。②知识抽取③大规模知识抽取知识库建设有以下案例:Yago(YetAnotherGreatOntology)整合WordNet和维基百科,从维基百科结构中抽取信息,使用人工抽样评估DBPedia,通过社区成员定义和编写准确的提取模板从维基百科中提取结构信息并将其发布在Web上。Freebase从维基百科和其他数据源(如IMDB、MusicBrainz)导入知识。2.自然语言处理自然语言处理与知识图谱研究是双向互动关系:自然语言处理为知识图谱抽取知识;知识图谱可以提高NLP任务的准确性。(1)知识图谱与自然语言处理知识图谱与自然语言处理在以下两个方面密切相关:①信息抽取的主要技术:实体识别与抽取、实体消歧、关系抽取的趋势与挑战:?从封闭到开放?大规模信息抽取?深度挖掘信息背后的语义(从抽取到理解)②语义分析语义分析是将自然语言映射成机器可以表达的形式。主要技术:词义消歧、语义角色标注、照应消解等应用:?知识图谱的自然语言问答?聊天机器人等(2)实体识别在实体识别中,命名实体识别主要有两种方法:①基于规则的实体识别方法基于命名实体字典的方法:利用字符串完全匹配或部分匹配的方法从文本中找到与字典最相似的词组来完成实体识别。优点:规则简单。缺点:需要建立字典和规则;性能受字典大小和质量的影响。②基于机器学习的实体识别方法使用预标记语料库训练模型,使模型学习到一个词或词作为命名实体的组成部分的概率,进而计算出一个候选字段的概率值作为命名实体。如果大于某个阈值,则将其标识为命名实体。分为:最大熵模型(MaximumEntropyModel)和条件随机场模型(ConditionalMarkovRandomField)。(3)语义分析的语义搜索语义搜索是指搜索引擎的工作不再受用户输入的请求语句的字面意义所约束,而是透过现象看本质,准确捕捉输入的信息由用户。输入语句背后的真实意图,并以此进行搜索,从而更准确地将最符合其需求的搜索结果返回给用户。(4)基于语义分析的知识问答智能问答的方法主要有两种:①基于信息检索的方法首先利用中文分词、命名实体识别等自然语言处理工具,找出问题中的所有信息句子。然后在知识资源库中搜索涉及的实体和关键词,通过评分模型对答案进行排序。②基于语义分析的方法,将自然语言形式的问题按照特定语言的语法规则解析为语义表达,并转换为某种数据库查询语言。两种主要方法的框架对比如下:3.图数据库从以下四个方面介绍知识图谱与图数据库的关系:知识图谱与数据管理、基于关系的知识图谱存储管理、原生知识图谱存储管理、知识图和图形数据库。①知识图谱与数据管理知识图谱本质上是一个多关系图,通常用“实体”来表示图中的节点,用“关系”来表示图中的边。关系型数据库:实体之间的关系通常使用外键来实现,关系的查询需要大量的连接操作。图数据库:图模型对实体(节点)和实体之间的关系(边)进行建模,在关系操作上有更高的性能。②基于关系的知识图谱存储管理使用三元组进行知识图谱存储:优点:简单明了缺点:最大的问题是将知识图谱查询转化为SQL查询后,会产生大量的三元组表自连接操作.为了解决基于关系的图存储管理中存在的问题,采用了以下两种方法来解决:属性表:将相似的属性聚集成一个表优点:克服三重自连接问题。缺点:一对多关系或多值属性存储问题,RDF的灵活性等。代表:采用属性表存储方案的代表系统是RDF三元组库Jena。垂直分区:通过谓词对三元组表进行分区优点:克服空值和多值属性表的问题。缺点:属性表数量多,删除成本高。代表:采用垂直分区存储方案的代表性数据库是SW-Store。③原生知识图谱存储管理RDF模型gStore系统使用子图来匹配整个图谱。优点:任何不满足子图模式的节点都可以跳过,实现高并发。PropertyGraph典型的属性图表示:Neo4j图数据库。与RDF的区别在于:边也有属性,可以与RDF相互转换。④知识图谱和图数据库4.机器学习与机器学习的联系更多地表现在知识表示学习方面,更多场景的应用是知识推理。①知识表示学习知识表示学习产生的背景是基于网络的知识表示存在数据稀疏性和计算效率的问题。知识表示学习(representationlearning)主要是对知识图谱中的实体和关系进行表示学习,利用建模方法将实体和向量表示在低维稠密向量空间中,进而进行计算和推理。优点:显着提高计算效率,有效缓解数据稀疏性,实现异构信息融合。应用:知识图谱补全、相似度计算、关系抽取、自动问答、实体链接。示例:知识表示代表模型:TransE[Bordes等人,NIPS13]。对于每个事实(主语、谓语、宾语),使用谓语作为从主语到宾语的翻译操作。每个主语/谓语/宾语都映射到一个多维向量中。优化目标是S+P=O。②自然语言问答03从人工智能和大数据的角度看知识图谱为什么要从这两个角度看知识图谱?这主要是因为这两个角度目前很流行。①人工智能的诞生早在1956年的达特茅斯会议上,“人工智能(AI)”的概念就被首次提出。人们把他概括为“用机器模仿人类的学习和其他方面的智能”。目前人工智能有两个流派:符号主义和连接主义。象征主义象征主义(symbolicism)又称逻辑主义(logicism)、心理学(psychology)或计算机学派(computerism),其主要原理是认为认知过程是一种对符号表征的操作。可以举个例子来理解:小明知道自行车O:O(a,b,c,d,e),其中a(车把)b(轮胎)d(坐垫)e(车架)c(踏板)。连接主义Connectionism,又称仿生学或生理学,其主要原理是智能活动是由大量简单单元并行运行,通过复杂的互连结果。目前典型研究:深度学习、深度神经网络。可以举个例子来理解:小明学骑自行车:经过长时间的练习,小明终于学会了!但我不知道“要做什么”才能骑车。②知识图谱与人工智能计算机的发展分为计算智能、感知智能、认知智能三个阶段。人工智能需要机器智能,尤其是认知智能,而认知智能又依赖于知识图谱。目前重要的研究方向是与联结主义的结合(如知识图谱的表征学习等)。③知识图谱与大数据知识图谱与大数据的联系“知识图谱”是一种面向关联分析的大数据模型。大数据的5V特性包括:Volume(大量)、Velocity(高速)、Variety(多样性)、Value(价值)、Veracity(真实)。其中最重要的是Value,但是Value是隐含的,大数据中隐含的关系可以用知识图来表示。知识图谱和大数据的应用知识图谱和大数据的应用包括以下几个方面:图机器学习,比如TransE、GCN等模型。图数据库,如RDF图gStore、Virtuoso、propertygraphNeo4j、janusgraph等图计算系统,如以点为中心的模型系统Pregel、GraphLab等图挖掘算法,如Pagerank、Simrank、社区发现、影响力propagation等04我们的工作①研发路线图我们的团队来自北京大学望选计算机科学研究所数据管理研究室。2011年开始研究图数据库,提出了子图匹配的方法实现RDF查询。2013年至2017年开发IngStore,提出结构感知图数据库索引和子图匹配查询优化理论。②技术路线图图谱生态链系统平台分为知识图谱构建、知识图谱管理、知识图谱应用三个步骤。知识图谱构建中的大部分数据都是结构化或非结构化的,存储在关系数据库中,而不是RDF或属性图的形式。因此,在构建过程中需要对数据形式进行转换。涉及知识抽取和知识融合的问题是整个系统平台的重点和难点。知识图谱管理解决的是转换为RDF或属性图的数据如何存储,如何管理数据,为知识图谱应用提供高效的访问接口等问题。知识图谱应用开发知识图谱的应用体现了数据的价值,是整个系统平台的价值点。③产品生态gStore项目特点:基于子图匹配的图数据查询和优化策略,单机可支持50亿图数据的存储、查询和更新。代码:除SPARQL语法解析器外,均为独立开发。目前C++代码14万行,完全自主知识产权。当前版本:v0.9.1项目主页:gstore.cn开源地址:https://github.com/pkumod/gStoregBuilder项目特点:知识图谱构建的集成平台,包括Schema设计、结构化和非结构化数据提取、融合多种文本抽取算法模型、抽取模型NAS搜索等。gAnswer项目特色:一种基于子图匹配知识图谱的自然语言问答方法。开源地址:https://github.com/pkumod/gAnswergStoreWorkbenchgStore可视化管理工具。gCloud“开箱即用”gStore服务。gMaster支持百亿分布式部署。gStore高效RDF图数据库管理系统实现了自主可控的本地化,可适配本地化的CPU和操作系统。赋能国产自主可控的计算机架构。05相关案例①金融科技知识关联查询:金融实体查询、多层股权查询、金融实体关联分析。风险分析:风险识别、资本体系分析。②政务大数据社会中的自然人会产生大量数据,如出生、教育、住房、就业、婚育、医疗、养老、死亡等数据,基于这些数据,政务大数据融合可以进行挖矿,比如民政司法的亲属关系检索。③智慧纪检可以利用知识图谱进行干部廉洁画像、社会关系分析、通话清单分析等。④智慧医疗基于药品说明书构建“疾病-症状-药品”知识图谱,可用于疾病科室、疾病症状、疾病并发症、健康饮食智能问答等应用。⑤人工智能如智能问答等语音机器人。⑥气象交通将规律写入知识图谱,实时采集气象信息并匹配知识图谱,起到预警作用。⑦公安知识图谱多维度知识探索:从“同程、同地、同案”等多维度进行知识探索和知识推理。隐性关系挖掘:获取交通、网吧、出入境等部门和系统的数据,发现“一起旅游、一起上网、一起出国”等隐性关系。嘉宾:北京大学博士后李文杰博士