当前位置: 首页 > 科技观察

终于有人把知识图谱解释清楚了

时间:2023-03-17 20:34:37 科技观察

本文转载自微信公众号《大数据DT》,作者刘宇、赵红雨等,转载请联系大数据DT公众号。01什么是知识图谱我们可以从不同的角度来考察知识图谱的概念。从Web的角度来看,知识图谱通过在数据之间建立语义链接来支持语义搜索,就像简单文本之间的超链接一样。从自然语言处理的角度来看,知识图谱就是从文本中提取语义和结构化的数据。从知识表示的角度来看,知识图谱是一种使用计算机符号来表示和处理知识的方法。从人工智能的角度来看,知识图谱是一种利用知识库来辅助理解人类语言的工具。从数据库的角度来看,知识图谱是一种以图的形式存储知识的方法。目前,学术界尚未对知识图谱给出统一的定义。谷歌发布的文档中明确描述了知识图谱是一种利用图形模型来描述知识并对世界万物之间的关系进行建模的技术方法。知识图谱仍然是一个比较通用的语义知识形式化描述框架。它用节点来表示语义符号,用边来表示语义之间的关系,如图3-1所示。在知识图谱中,人、物、物通常被称为实体或本体。▲图3-1知识图谱示例。知识图谱的三个要素包括:实体、关系和属性。实体:又称本体,是指客观存在的、可以相互区分的事物。它们可以是具体的人、事、物,也可以是抽象的概念或联系。实体是知识图谱中最基本的元素。关系:在知识图谱中,边表示知识图谱中的关系,用来表示不同实体之间的某种联系。如图3-1所示,图灵与人工智能的关系,知识图谱与谷歌的关系,谷歌与深度学习的关系。属性:知识图谱中的实体和关系都可以有自己的属性,如图3-2所示。▲图3-2知识图谱中的属性知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多项技术。知识图谱的应用体现在语义搜索、智能问答、语言理解、决策分析等诸多领域。02知识图谱的价值知识图谱最先应用于搜索引擎。它一方面通过推理实现概念检索,另一方面以图形化的方式向用户展示经过分类整理的结构化知识,让人们可以从人工过滤的网页中搜索答案。摆脱它,可以应用于智能问答、自然语言理解、推荐等。知识图谱的发展得益于Web技术的发展,受到KR、NLP、Web和AI的影响。知识图谱的价值归根结底是让AI更聪明。1.强力搜索搜索的目的是使人们能够在万物互联网络中方便快捷地找到一些东西。目前我们的搜索习惯和搜索行为还是以关键词为主,知识图谱的出现可以彻底改变这种搜索行为模式。当知识图谱还没有应用到搜索引擎时,搜索过程是:从海量的URL中找出匹配度最高的URL,根据查询结果返回一些排名得分最高的结果给用户。整个过程中,搜索引擎可能不需要知道用户输入了什么,因为系统没有推理能力,在精准搜索上也略显不足。基于知识图谱的搜索,除了能够直接回答用户的问题外,还具有一定的语义推理能力,大大提高了搜索的准确率。图3-3是知识图谱辅助搜索的示意图。▲图3-3知识图谱辅助搜索2.辅助推荐推荐技术与搜索技术非常相似,但又略有不同。搜索技术采用信息拉取,而推荐技术采用信息推送,因此推荐技术存在冷启动、数据稀疏等问题。以电商推荐为例介绍知识图谱在推荐中的应用。假设我买了一部手机,手机的强从属关系是手机壳,这样系统就可以向我推荐手机壳,也可以推荐相似或互补的实体。图3-4是知识图谱辅助推荐的示意图。▲图3-4Knowledgegraphpowerrecommendation3.FacilitateQ&A问答和对话系统一直是NLP在人工智能落地领域的关键标志之一。知识图谱相当于为问答对话系统挂载了一个背景知识库。对于问答和对话系统或聊天机器人,除了实体知识图谱和兴趣知识图谱等开放领域的稀疏大图外,还需要针对机器人和用户个性化的密集小图。同时知识图谱需要动态更新。图3-5是知识图谱辅助问答的示意图。▲图3-5知识图谱助力问答03知识图谱的架构知识图谱的架构涉及知识表示、知识获取、知识加工和知识利用。一般来说,知识图谱的构建过程是这样的:首先确定知识表示模型,然后根据不同的数据源选择不同的知识获取方式并导入相关知识,再利用知识推理、知识融合、知识挖掘等技术进行知识图谱的构建。构造相应的知识图谱,最后根据不同的应用场景设计知识图谱的表示,例如:语义搜索、智能推荐、智能问答等。从逻辑上讲,我们可以将知识图谱分为两个层次:数据层和模式层。数据层可以是以事实为单位存储的数据库,可以选择的图数据库有RDF4j、Virtuoso、Neo4j等三元组。可以作为基本表达式存储在图数据库中。模式层建立在数据层之上,是知识图谱的核心。通常,数据层是通过本体库来管理的,本体库的概念相当于对象中“类”的概念。借助本体库,我们可以管理公理、规则和约束,规范实体、关系和属性等特定对象之间的关系。知识图谱可以通过两种方式构建:自上而下和自下而上。自上而下的构建是指借助百科全书数据源提取本体和模式信息,并将其添加到知识库中。自底向上构建是指借助一定的技术手段,从公开数据中提取资源,选择置信度高的信息,经人工审核后加入知识库。在知识图谱发展初期,大多数企业和机构采用自上而下的方式构建知识图谱。目前,大多数公司使用自下而上的方法来构建知识图谱。知识图谱的架构如图3-6所示。▲图3-6知识图谱架构知识来源:包括结构化数据、非结构化数据和半结构化数据。信息抽取:是从各类数据源中抽取实体、属性以及实体之间的关系,并在此基础上形成本体的知识表示。知识图谱构建过程中存在大量非结构化或半结构化数据,需要在知识图谱构建过程中通过自然语言处理方法进行信息抽取。从这些数据中,我们可以提取实体、关系和属性。知识融合:主要任务是对结构化数据和信息抽取的实体信息,甚至第三方知识库进行实体对齐和实体消歧。这个阶段的输出应该是各种数据源融合的各种本体信息。知识处理:知识处理阶段如图3-6所示,其中知识推理中的重要工作是完成知识图谱。常用的知识图谱补全方法包括:基于本体推理、相关推理机制实现的补全方法,以及基于图结构和关系路径特征的补全方法。作者简介:刘宇,清华大学硕士,目前就职于某跨境电商公司,任技术总监,主要负责公司搜索推荐业务及广告相关技术开发。目前的工作重点是落地算法在搜索系统、推荐系统、对话系统等具体业务场景中的应用。在机器学习、深度学习、大数据应用与开发等方面有大量研究。与人合着了一本书?。赵宏宇,毕业于东北大学,获学士学位;RIT硕士毕业,AI专业。现就职于猎聘网,主要负责猎聘网推荐排名相关工作。刘树斌,毕业于东北大学,现就职于美团,高级系统开发工程师。曾就职于唯品会,主要负责搜索工程的架构设计和实现等相关工作,在Elasticsearch有丰富的工程实践经验。孙明珠,硕士毕业于南京航空航天大学,现就职于猎聘网,高级算法工程师,负责查询理解、解析、扩展等NLP相关工作。本文节选自《智能搜索和推荐系统:原理、算法与应用》,经出版社授权发布。