知识图谱是人工智能的重要分支技术。它于2012年由谷歌提出,现已成为构建大规模知识的杀手级应用。它用于搜索和自然语言处理。、智能助手、电子商务等领域发挥重要作用。知识图谱、大数据、深度学习这三大“秘密武器”已经成为互联网和人工智能发展的核心驱动力之一。知识图谱的概念及分类知识图谱(KnowledgeGraph)于2012年由谷歌提出,并成功应用于搜索引擎。它以结构化的形式描述客观世界中的概念、实体及其相互关系,以更接近人类认知世界的形式表达互联网信息,为互联网上的海量信息提供更好的组织、管理和理解方式。互联网能力。知识图谱的分类方法有很多,如知识类型、构建方法等。在领域方面,知识图谱通常分为两种类型:通用知识图谱和领域特定知识图谱。▲知识图谱示意图一张常见的知识图谱示意图主要包含三种节点:实体、概念和属性。实体是指可区分的、独立存在的事物。比如某个人,某个城市,某个工厂,某个商品等等。世界上的一切都是由具体的事物组成的,具体的事物指的是实体。实体是知识图谱中最基本的元素,不同的实体有不同的关系。概念是指具有相同特征的实体的集合,如国家、民族、书籍、计算机等。属性用于区分概念的特征,不同的概念具有不同的属性。不同的属性值类型对应不同类型属性的边。如果属性值对应于一个概念或一个实体,则该属性描述了两个实体之间的关系,称为对象属性;如果属性值是特定值,则称为数据属性。知识图谱的三个典型应用现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入巨资布局知识图谱,对搜索引擎的形态越来越产生重要影响。如何根据业务需求设计和实现知识图谱应用,并根据数据特征进行优化调整,是知识图谱应用的重点研究内容。知识图谱的典型应用包括语义搜索、智能问答和视觉决策支持。1.语义搜索目前基于关键词的搜索技术可以在知识图谱的知识支持下升级为基于实体和关系的检索,称为语义搜索。语义搜索可以利用知识图谱准确捕捉用户的搜索意图,然后基于知识图谱中的知识,解决传统搜索中遇到的关键词语义多样性和语义消歧等问题,实现知识的混合检索和文件通过实体链接。语义检索需要考虑如何解决自然语言输入带来的表达多样性问题,同时需要解决语言中实体的歧义问题。同时,借助知识图谱,语义检索需要直接给出符合用户搜索意图的答案,而不是包含关键词的相关网页链接。2、智能问答问答(QuestionAnswering,QA)是一种高级的信息服务形式,它使计算机能够自动回答用户提出的问题。与现有的搜索引擎不同,问答系统返回给用户的不再是基于关键词匹配的相关文档排名,而是自然语言的精准答案。智能问答系统被视为未来信息服务的颠覆性技术之一,也被认为是机器具备语言理解能力的主要验证手段之一。智能问答需要理解用户输入的自然语言,从知识图谱或目标数据中给出用户问题的答案。关键技术和难点包括准确的语义分析,正确理解用户的真实意图,以及返回答案的准确性。评分等级以确定优先顺序。3.可视化决策支持可视化决策支持是指通过提供统一的图形界面,结合可视化、推理、检索等,为用户提供信息获取途径。通过节点探索、路径发现、关联搜索等可视化分析技术,展示创投地图中的初创企业及投资机构的投资偏好,全方位展示企业信息。可视化决策支持需要考虑的关键问题包括通过可视化辅助用户快速发现业务模型、提高可视化组件的交互友好性、底层算法在大规模图环境下的效率等。通用知识图谱和特定领域知识图谱1.通用知识图谱通用知识图谱可以形象地看作是通用领域的“结构化百科知识库”,其中包含了大量现实世界中的常识性知识,涵盖了范围极广。宽的。由于现实世界中的知识丰富多样且极其复杂,通用知识图谱主要强调知识的广度,通常采用自下而上(Top-Down)的方式利用百科全书数据构建。下图为常识知识库知识图谱。国外DBpedia采用固定模式从维基百科中提取信息实体,目前拥有127种语言的超过2800万个实体和数亿个RDF三元组;YAGO整合了维基百科和WordNet的大规模本体,10种语言的实体约有459万个,事实有2400万个。国内智视网从开放的百科全书数据中提取结构化数据。目前整合了百度百科、互动百科、中文维基百科三大百科的数据。它有1000万条实体数据和1.2亿条RDF三元组。2.领域知识图谱应用领域知识图谱常被用来辅助各种复杂的分析应用或决策支持,在很多领域都有应用。不同领域的建设方案和申请表不同。以电子商务为例,电子商务知识图谱以商品为核心,以人、货、场为主要框架。目前涉及9类初级本体和27类二级本体。一级本体为:人、货、市场、百科知识、行业竞争、质量、品类、资质、舆情。人、货、地构成商品信息流通的闭环,其他本体主要为商品提供更丰富的信息描述。上图描述了商品知识图谱的数据模型。数据来源包括国内-国外数据、商业-国家数据、线上-线下等多源数据。目前,有数百亿个节点和数百亿个关系边。电商知识图谱,这个商品“大脑”的一个应用场景就是导购。所谓导购,就是让消费者更容易找到自己想要的东西。例如,买家输入“我需要一条漂亮的丝巾”,“商品大脑”会通过语法和词法分析提取语义点“一”。、“美丽”、“丝绸”和“丝巾”帮助买家搜索合适的产品。为了更容易在导购中发现,“商品大脑”还学习了很多行业规范和国家标准,比如全棉、低糖、低嘌呤等。时代。“商品大脑”可以从大众媒体和专业社区的信息中识别出近期的热词,追踪热词的变化,让运营确认是否已经成为热词。等热词出来了,我要的产品出现了。最后,智能“商品大脑”还可以通过实时学习构建场景。比如你输入“去海边买什么”,结果会是泳衣、泳圈、防晒霜、沙滩裙等产品。知识工程的五个发展阶段知识图谱技术是知识工程的一部分。1994年,图灵奖获得者、知识工程创始人费根鲍姆给出了知识工程的定义——将知识集成到计算机系统中,以完成只有特定领域的专家才能完成的复杂任务。回顾过去四十年知识工程的发展,我们可以将知识工程划分为五个标志性的阶段:前知识工程时期、专家系统时期、万维网1.0时期、群体智能时期和智能时代。知识图谱时期,如下图所示。1)1950-1970年时期:图灵测试——知识工程的早期阶段,主要有两种方法:符号主义和连接主义。符号主义认为物理符号系统是智能行为的充要条件,而联结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一时期的知识表示方法主要包括逻辑知识表示、产生式规则、语义网络等。2)1970-1990年:专家系统-知识工程的繁荣期。由于一般的问题解决强调利用人类解决问题的能力构建智能系统,而忽视了知识对智能的支持,人工智能很难在实际应用中发挥作用。.20世纪70年代以来,人工智能转向构建以知识为基础的系统,通过“知识库+推理机”实现机器智能。在此期间,知识表示方法出现了新的演变,包括框架和脚本。20世纪80年代后期出现了很多专家系统开发平台,可以将专家的领域知识转化为计算机可以处理的知识。3)1990-2000年:万维网1.01990-2000年期间出现了很多人工构建的大规模知识库,包括广泛使用的英文WordNet,以一阶谓词逻辑为代表的Cyc常识知识库知识,以及中文知网。Web1.0万维网的出现为人们提供了一个开放的平台,使用HTML来定义文本的内容,并通过超链接连接文本,使公众可以共享信息。W3C提出的可扩展标记语言XML,通过定义标签实现对互联网文档内容结构的标记,为互联网环境下大规模的知识表示和共享奠定了基础。4)2000-2006年:群体智能万维网的出现,使知识从封闭知识向开放知识转变,从集中式知识构建向分布式群体智能知识转变。最初,专家系统是系统内部定义的知识。现在,知识源可以相互链接,更多的知识可以通过联想产生,而不是完全由固定的人产生。群体智能就是在这个过程中出现的,最典型的代表就是维基百科。事实上,用户构建知识,反映了互联网用户对知识的贡献,已成为当今大规模结构化知识图谱的重要基础。5)2006年至今:知识图谱——知识工程新发展时期,“知识就是力量”。这一时期的目标是将万维网的内容转化为机器可理解的计算知识,为智能应用提供动力。2006年以来,大规模的类维基百科丰富结构知识资源的出现和网络规模信息抽取方法的进步,使得大规模知识获取方法取得了长足的进步。当前自动构建的知识库已经成为语义搜索、大数据分析、智能推荐、数据集成的强大资产,正在广泛应用于各大行业和领域。典型的例子有谷歌收购Freebase后于2012年推出的KnowledgeGraph,Facebook的图搜索,微软的Satori,以及商业、金融和生命科学领域的特定领域知识库。上表显示了知识图谱领域相关的10个重要国际学术会议。这些会议为知识图谱领域学者的研究方向、技术趋势和研究成果提供了重要信息。将知识变成地图需要多少步?知识图谱技术是建立和应用知识图谱的技术。参考中国信息学会语言与知识计算专业委员会发布的《知识图谱发展报告2018年版》,本报告将知识图谱技术分为知识表示与建模、知识获取、知识融合、知识图谱查询与推理计算、知识应用技术。1.知识表示与建模知识表示将现实世界中的各种知识表达成计算机可以存储和计算的结构。机器必须掌握大量的知识,尤其是常识性知识,才能实现真正的类人智能。目前,随着自然语言处理领域词向量等embedding技术的出现,利用连续向量表示知识的研究(TransE翻译模型、SME、SLM、NTN、MLP、NAM神经网络模型等)得到了广泛应用。)逐渐用上述基于符号逻辑的知识表示方法代替融合成为现阶段知识表示的研究热点。更重要的是,知识图谱嵌入通常作为一种先验知识辅助输入到许多深度神经网络模型中,以约束和监督神经网络的训练过程,如下图所示。与传统人工智能相比,知识图谱时代基于向量的知识表示方法不仅可以满足大规模扩展的需求,而且可以作为大数据分析系统的重要数据基础,帮助这些数据更容易地与深度学习模型集成。同时,随着以深度学习为代表的表征学习的发展,知识图谱中实体和关系的表征学习取得了重要进展。知识表示学习将实体和关系表示为密集的低维向量,以实现实体和关系的分布式表示,已成为知识图谱中语义链接预测和知识补全的重要方法。知识表示学习是近年来的研究热点。研究人员提出了多种模型来学习知识库中实体和关系的表示。但是,关系路径建模工作还比较初步,在关系路径的可靠性计算和语义组合操作方面还有很多详细的调查工作要做。2.知识获取知识获取包括实体识别和链接、实体关系学习和事件知识学习。1)实体识别和链接是知识图谱构建、知识补全和知识应用的核心技术,也是海量文本分析的核心技术,为计算机类人推理和自然语言理解提供知识库。实体识别是理解文本含义的基础,即识别文本中指定类别的实体的过程,可以检测文本中的新实体并将其添加到现有知识库中。2)实体关系识别是知识图谱自动构建和自然语言理解的基础。实体关系定义为两个或多个实体之间的某种联系,用来描述客观存在的事物之间的关系。实体关系学习是从文本中自动检测和识别实体之间的某种语义关系,也称为关系抽取。实体关系抽取分为预定义关系抽取和开放关系抽取。预定义关系抽取是指系统抽取的关系是预定义的,如上级关系、国资关系等。开放式关系抽取不预定义要抽取的关系类型,系统自动发现并抽取关系从文本中。3)事件知识学习是将自然语言表达的事件以结构化的形式呈现在非结构化文本中,对于知识的表示、理解、计算和应用具有重要意义。事件是促使事物状态和关系发生变化的条件,是动态的、结构化的知识。现有的知识资源(如GoogleKnowledgeGraph)主要是描述实体和实体之间的关系,缺乏对事件知识的描述。3.知识融合知识图谱可以由任何组织或个人自由构建,其背后的数据来源广泛,质量参差不齐,导致它们之间存在多样性和异构性。提出语义集成,将不同的知识图谱集成为统一、一致、简洁的形式,并为使用不同知识图谱的应用程序之间的交互建立可操作性。常用的技术包括本体匹配(也称为本体映射)、强度匹配(也称为实体对齐、对象公共参考解析)和知识融合。一个常见的语义融合过程主要包括输入、预处理、匹配、知识融合和输出五个环节,如上图所示。众包、主动学习等人机协作方法是当前实例匹配的研究热点。这些方法利用普通用户以较小的人力成本获得丰富的先验数据,从而提高匹配模型的性能。随着表征学习技术在图像、视频、语言、自然语言处理等领域的成功,一些研究者开始研究知识图谱的表征学习技术,将实体和关系转化为低维空间中的实体向量。(即分布式语义表示),在知识图谱补全、知识库问答等应用中取得了较好的效果。同时,强化学习近年来也取得了一些进展,如何将强化学习用于语义整合也逐渐成为一种新趋势。4.知识图谱查询与推理计算知识图谱以图的形式展示实体、事件以及它们之间的关系。知识图谱存储与查询研究如何设计有效的存储模式来支持大规模图数据的有效管理,实现知识图谱中知识的高效查询。知识推理从给定的知识图谱中推导出新实体与实体之间的关系,在知识计算中起着重要作用,如知识分类、知识验证、知识链接预测、知识补全等。知识图谱推理可以分为基于符号的推理和基于统计的推理。在人工智能研究中,基于符号的推理一般基于经典逻辑(一阶谓词逻辑或命题逻辑)或经典逻辑的变体(如默认逻辑)。基于符号的推理可以从现有知识图谱中推断出实体之间的新关系,可用于建立新知识或对知识图谱进行逻辑冲突检测。基于统计的方法一般是指关系型机器学习方法,即通过统计规律从知识图谱中学习实体之间新的关系。发展趋势与挑战总体来看,知识图谱领域的发展将继续呈现专业化、开放化、智能化的趋势。、事件图、机器学习、深度学习等)。虽然现在的互联网巨头已经意识到知识图谱的战略意义,纷纷投入巨资布局知识图谱,但我们也强烈感受到知识图谱还处于早期发展阶段,大部分商业知识图谱的应用场景非常有限的,比如搜狗,智立方更侧重于娱乐和健康。同时,从各搜索引擎公司提供的报告来看,为保证知识图谱的准确性,在构建知识图谱的过程中仍需要更多的人工干预。如何合理设计表征方案,更好地覆盖人类复杂多样的知识?如何准确高效地从互联网大数据中提取知识?如何将存在大量噪声和冗余的知识有机融合,构建更大规模的知识图谱?如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提升大规模知识图谱的计算效率和应用场景?未来,知识图谱将是大数据智能的前沿研究问题,这些重要的开放性问题亟待学术界和产业界解决。下面两张图是AMiner数据平台绘制的知识图谱领域近期和全球热词。从以上两张图可以看出,知识图谱领域中知识库、信息检索、数据挖掘、知识表示、社交网络等方向越来越受到青睐。此外,近年来在信息抽取、查询回答、问题回答、机器学习、概率逻辑、实体消歧、实体识别、查询处理和决策支持等方面的研究兴趣逐渐增加。概念图、搜索引擎、信息系统等方向的热度逐渐消退。智世认为,在知识图谱的推动下,以智能客服、智能语音助手为首的AI应用正在成为人工智能技术落地的第一批排头兵,知识图谱也因此成为各大人工智能的中流砥柱。和互联网公司。它与大数据、深度学习一起成为互联网和人工智能发展的核心驱动力之一。但报告中提到,为了保证准确率,在知识图谱的构建过程中,仍然需要更多的人工干预。同时,知识图谱还处于发展初期,商业应用场景有限,有待进一步发展。