知识图谱能做什么?如何自动高效构建知识图谱?前沿的知识图谱自动构建技术有哪些?本文将一一解答这些问题。在日常生活中,我们经常会遇到以下两种显示信息的方式:两者显示的信息量差不多,但右边的看起来更直观。而且,随着文本长度的增长,这种优势会更加明显。与人一样,机器也越来越善于使用右侧显示的数据。但矛盾的是,互联网等大部分数据平台存储的都是左边所示的数据。要将左图转换为右图,机器需要经过一个“阅读理解”过程。这个过程是如何完成的?这就引出了我们今天的主题——知识图谱。知识图谱能做什么?知识图谱的概念是谷歌在2012年提出的,当时主要用于提高其搜索引擎的质量,改善用户搜索体验。随着大数据时代的到来和人工智能技术的进步,知识图谱的应用边界逐渐拓宽。越来越多的企业开始将知识图谱技术融入其既定的数据分析服务中,有的甚至将知识图谱作为其数据的基本组织和存储形式,成为其数据中心的核心基础设施。与谷歌类似,微软将知识图谱技术用于其必应搜索引擎,以优化搜索结果质量和交互式搜索体验;LinkedIn和Facebook使用知识图来挖掘他们平台上的人、事件和信息之间的交互。关系,让用户更容易发现感兴趣的内容,找到志同道合的朋友;eBay、亚马逊等电商平台利用知识图谱建立用户与商品的联系,实现更精准的商品推荐;IBM专注于企业服务,其IBMWatsonDiscovery产品可以帮助用户根据自己的特殊需求快速构建自己的知识图谱框架。知识图谱的概念虽然在2012年才被提出,但其背后的思想本质上还是上个世纪的语义网络(SemanticNetwork)知识表达形式,即由节点(Point)和边(Edge)组成的有向图.结构知识库。其中,图的节点代表现实世界中存在的“实体”,图的边代表实体之间的“关系”。图1:传统知识库和知识图谱示意图[1]与传统的数据存储和计算方式相比,知识图谱技术更侧重于对非结构化异构数据的收集和处理,更擅长关系的表达和计算,能够处理复杂多样的关联分析,挖掘更多隐藏知识。同时,知识图谱的数据结构与人工智能领域诸多技术任务所依据的数据(异构结构、多重关联的大数据)一脉相承,可以为后续的机器学习和推理任务,帮助企业在智能搜索、智能问答、智能推荐、大数据分析等方面提升绩效。智能搜索:传统搜索引擎依靠网页之间的链接和权重进行搜索排名,而知识图谱提供实体分类、属性和关系描述,可以直接对事物进行更精确的语义搜索。智能问答:基于知识图谱的智能问答是目前业界问答系统的主要技术路线之一,即针对给定的自然语言问题,利用知识图谱技术进行语义分析、查询和判断。推理以获得答案。该技术常用于智能手机或音箱载体上的智能对话机器人,如Siri、GoogleAssistant、AmazonAlexa、小爱同学、天猫精灵,以及微软的小冰和小娜。这些智能问答代理的背后,是相关企业积累的知识图谱,作为问答系统的支撑。智能推荐:基于知识图谱的推荐可以更好地考虑用户与推荐物品之间的各种相互关系,增强数据的语义信息,挖掘隐藏的相关信息,进一步提高推荐的准确性。大数据分析:基于知识图谱中实体的关联信息和推理,挖掘传统数据分析难以获取的隐藏信息。这种优势在具有大量异构信息的数据集中更为显着。基于知识图谱的大数据关联分析在金融风控、反欺诈乃至安全等应用场景中都有很好的效果。近年来,知识图谱的诸多优势和应用前景推动了针对特定领域的知识图谱在行业应用中的构建,产生了医疗知识图谱、金融知识图谱、电商知识图谱等不同垂直行业的知识图谱.图2:行业知识图谱应用概览[2]如何构建知识图谱?一般来说,知识图谱的构建通常会经历几大要素:知识获取、知识表示与建模、知识融合、知识存储以及构建后的知识查询与推理:知识获取:不同来源、不同结构的数据抽取知识(实体、关系、属性等信息)来自,是构建知识图谱的核心和前提。知识表示与建模:为知识制定统一的数据模式,将获取的知识按照统一的数据结构进行存储,形成知识库,是知识图谱形式化构建的第一步,影响后续的知识方法和效果融合、存储和查询推理可以使用。知识融合:将不同来源的知识的验证、消歧、处理等异构数据以统一的框架规范进行整合。这是更新和合并知识图谱的唯一途径,它为不同知识图谱之间的交互集成提供了可能。性别。知识存储:根据数据量的大小、数据特点和应用需求,选择合适的存储方式,将获取的数据进行存储,形成知识图谱。知识查询与推理:基于完成的知识图谱进行查询,或进一步推理,挖掘出隐藏的知识,丰富和扩展知识图谱。这就是知识图谱构建的最终目标。它与知识获取一起影响知识图谱的应用场景和范围。.图3:知识图谱构建的要素和示例过程。在执行正式的知识获取步骤之前,通常首先确认知识的建模和表示。主要有两种方式:首先为知识图谱设计数据模式(dataschema),然后根据设计好的数据模型进行有针对性的数据抽取。这是一种自上而下的数据建模方法,一般适用于数据相对集中、知识结构相对明确的垂直领域的行业知识图谱;先收集整理数据,然后根据数据内容归纳归纳其特点,细化框架,逐步形成确定的数据模型。这是一种自底向上(bottom-up)的数据建模方法,普遍适用于海量数据。公共领域的公共知识图谱,数据和内容复杂,结构不清晰。图4:知识图谱数据建模方法[3]知识图谱构建的核心技术、局限性和发展方向知识获取是构建知识图谱的核心和前提,也是自动化知识最关键的影响因素和重点研究领域地图建设。除了纯手工的知识输入,目前的知识获取主要是指结构化数据(如关系数据库)、半结构化数据(如字典、百科全书和明确标注的网页数据),或非结构化数据(自动或半自动)抽取声音、图像和文本语料数据等三种不同结构的知识,对于结构化和半结构化数据,通常只需要简单的预处理和映射,作为后续数据分析系统的输入,相关技术相对成熟,非结构化数据通常需要借助自然语言处理、信息抽取,甚至深度学习技术来帮助抽取有效信息,这也是当前知识抽取技术的主要难点和研究方向,包括实体抽取、关系抽取抽取和事件抽取。重要的子技术任务。实体抽取:mainly指的是命名实体识别(NamedEntityRecognition,NER)任务,即从纯文本中自动识别并提出特定类别的命名实体,如人物、组织、地点、时间、金额等。实体抽取是知识抽取中最基本的步骤。早期主要通过手工编写规则提取,但规则不易归纳,成本高,可移植性差。目前主要作为辅助方法使用。此后,实体抽取大多采用基于特征的统计方法,使用隐马尔可夫(HMM)和条件随机场(CRF)等模型,将实体抽取作为序列标注问题进行预测和标注。近年来,随着深度学习的发展,目前流行的方法是将统计方法与深度神经网络相结合,利用长短期记忆网络(LSTM)自动提取特征,再结合CRF模型标注进行提取实体。更高、更广的适用范围。关系抽取:指从文本中识别和抽取实体之间的关系,抽取结果往往用SPO结构(即主谓宾结构)的三元组表示。与实体抽取类似,早期主要使用基于模板的方法(触发词模板、依赖句法分析模板等)。近年来,开发了基于半自动监督学习的方法(CNN、RNN等)和基于纯自动弱监督学习的方法。方法(距离监督、Boostrapping等)。目前,大多数在关系抽取任务上取得最佳性能的模型都结合了注意力机制,例如AttentionCNNs模型和AttentionBLSTM模型。事件抽取:是指识别出文本中目标事件的信息,并以结构化的形式呈现出来。比如投融资新闻中的定位融资公司、融资金额、投资公司等信息;或者从恐怖袭击新闻报道中识别提取袭击时间、地点、遇难者信息等。事件抽取涉及实体和关系抽取相关技术。从宏观事件抽取思路来看,事件抽取方法可以分为两类:管道抽取和联合抽取。流水线抽取的思想是将事件抽取任务进一步分解为一条流水线上的多个子任务,如事件识别、元素抽取、属性分类等,分别使用相应的机器学习分类器来实现。这是目前主流的事件抽取方法。联合抽取主要是采用基于概率图的模型进行联合建模,或者采用基于深度学习的方法(如基于注意力机制的序列标注模型),将一个事件的多个元素作为一个整体进行联合识别和抽取。移动互联网、云计算、物联网等技术的快速发展,开启了数据大规模生产、分析和应用的大数据时代。然而,互联网上只有少量的结构化或半结构化数据知识能够被机器方便、直接地解析。非结构化数据的知识抽取仍然不能满足完全替代人工的准确性要求,依赖人工编辑的知识图谱构建存在成本高、效率低的问题。据德国曼海姆大学的研究人员估计[5],手动创建三元组(即一条记录)的成本在2到6美元之间。那么,使用纯手工方法构建大型知识图谱的总成本将在数百万至数十亿美元之间。相比之下,自动创建知识图谱的成本可降低约15至250倍,即一个三元组大约需要1美分至15美分。因此,如何应用知识自动抽取技术,从海量的自由文本信息中自动、准确地抽取高质量、结构化的知识,将成为知识图谱构建的重要突破点。图5:每个三元组的代价与错误率的关系[5]前沿的知识图谱自动构建技术知识获取是知识图谱自动构建的核心,非结构化知识是知识获取技术中最难克服的困难。近年来,深度学习及相关自然语言处理技术的快速发展,使得从非结构化数据中自动提取知识成为可能,只需很少甚至不需要人工操作。与传统方法相比,深度学习方法减少了对外部工具的依赖,可以构建端到端系统直接执行实体识别、关系抽取等任务,简单高效。在深度学习的基础上,艾伦人工智能实验室和微软的研究人员结合自然语言处理领域较为成功的预训练语言模型,提出了自动知识图谱构建模型COMET(COMmonsEnseTransformers)[8]。该模型可以根据现有常识数据库中的自然语言内容,自动生成丰富多样的常识描述。在Atomic和ConcepNet这两个经典的常识图上都取得了接近人类表现的高精度,证明了这种方法可以用于常识性知识图谱。在自动建造和完成方面替代传统方法的可行性。图6:COMET从现有的知识图谱(实线)中学习并生成新的节点和边(虚线)[8]另一方面,明略科学院知识工程实验室在IJCAI2020上的一篇论文采用了不同的方法方法,从传统的基于文本的知识图谱生成进一步扩展到基于语音的知识图谱生成。其HAO-Graph系统[10]设计并实现了实时语音图生成架构,能够根据说话人的话题变化在不同的图之间切换。图7:长语音语音结合摘要提取知识图谱示例[10]HAO-Graph基于明略科技的HAO智能技术,是目前已知的第一个公开发布的语音知识图谱构建系统,实现了中文文本和语音知识图谱的实时生成和可视化。同时明略科技在近期的WAIC2020上进一步开放了其Text2KGAPI接口,帮助相关从业者进行知识图谱底部的数据采集、标注、抽取、关联等相关工作,避免了大量的重复性工作,节省了开发人员的时间。在深度学习发展进入瓶颈期的时期,结合知识成为人工智能技术下一次突破的关键,而知识图谱必然是核心驱动力之一。我们期待这项技术在未来有更大更广泛的应用。
