当前位置: 首页 > 科技观察

从知识图谱到知识推理,会不会成为AI的热点

时间:2023-03-13 00:16:44 科技观察

今天写一篇关于知识图谱的文章,算是对知识图谱的初步学习和理解。近些年,有人跟我谈起知识图谱这个词,或者是在做知识图谱技术,或者是大数据平台建设完成后需要构建知识图谱。其实在10多年前,在企业知识管理和知识库建设中,类似Autonomy知识管理软件,讲到文本内容的语义识别和语义网的构建,包括香农理论和贝叶斯算法的使用等。还有基于知识图谱的知识和学习路径规划。后来,Autonomy被惠普收购,但消失了。但近年来,随着大数据和AI人工智能的发展,知识图谱成为新的热点,并在风控反欺诈、智能推荐引擎、智能知识问答等诸多领域发挥作用回答。其实也可以看出,大数据和AI算法的发展进一步推动了知识图谱的应用和落地。知识图谱离不开大数据。只有对海量自然数据进行知识收集和抽象,才能构建完整的知识语义网络,但仅有网络是不够的。基于语义网络,你的知识推理逻辑和算法必须持续提供技术支持。因此,数据+算法的发展是推动知识图谱分割发展的关键。知识图谱概述对于??知识图谱,从基本概念到构建过程、方法和工具,网上都有详细的文章可以参考。在这里,我只解释知识图谱的基本概念。知识图谱(KnowledgeGraph)的概念于2012年由谷歌正式提出,旨在实现更智能的搜索引擎,2013年开始在学术界和工业界得到普及,应用于智能问答、智能分析、反-欺诈和其他应用程序。扮演一个重要角色。知识图谱本质上是一种称为语义网络的知识库,即具有有向图结构的知识库,其中图的节点代表实体或概念,图的边代表实体/概念之间的各种语义关系,例如两个实体之间的相似关系。在理解知识图谱时,必须明确区分实体和概念,概念本身目前拆分为两个独立的词,概念和属性。从IT和软件开发的角度来看,实体类似于领域建模中的实体对象,而概念类似于值对象。实体对象可以独立存在,有独立的生命周期,而概念或值对象依赖于实体。没有实体单独谈论概念对象或价值是没有意义的。举个例子:雷军在2008年认识了林斌,当时林斌想推动谷歌和UCWEB的合作。雷军惊讶地发现,林斌对产品有着发自内心的热爱。林斌对自己在谷歌所做的工作和产品非常投入,“任劳任怨”。那个时候,雷军开始经常和林斌聊天,两个大人物经常一起点燃夜战到凌晨一两点。聊着聊着,两人从搭档变成了好朋友。从上面这段话,我们至少可以知道。雷军和林斌是好朋友。这是对实体和实体间关系的典型描述,可以用类似于RDF的三元组模型进行抽象和建模,存储在类图数据库中。里面的核心元数据是实体对象和实体关系。可见,雷军和林斌是独立的个体,有着独立的生命周期。它们虽然有关联,但又可以独立存在,互不影响。那么概念和概念属性呢?类似于对雷军个人属性的进一步描述,如身高、性别、年龄、种族等。概念和属性的最大特点之一是概念只是属性的列表或值的集合。这个值可以是连续的,比如一个高度值。也可以是不连续的,比如56个民族。但不管是什么情况,最终的概念都是一个最终的属性值。就好像实体已经不存在一样,概念和属性值本身就没有商业意义了。明白了这一点,我们再来看一下。雷军毕业于湖北仙桃中学,那么仙桃中学是一个概念还是一个实体?事实上,仙桃中学应该作为一个实体独立研究,因为仙桃中学的描述并不是由一系列连续或不连续的值来定义的。同时,仙桃中学可以独立存在,雷军是否存在不影响仙桃中学。那么仙桃中学应该算是一个独立的实体。基于这个思路,整个关系图可以改成下图。这里我专门用绿色框来描述概念和属性值。简单的说,概念就是一类特殊的实体,它不会被进一步展开,也不会直接与其他实体建立关系映射。知识图谱的构建过程对于知识图谱的构建过程,网上有很多详细的文章可以参考,本分类不再详述。只谈要点。从前面的简单例子可以看出,构建知识图谱的核心是实体对象的识别和实体关系的建立。即需要从一个非结构化的文本素材甚至语音素材中识别并抽象出对应的实体,同时建立实体之间的关系。人和物都是关键实体。识别实体时可以看到。人和事物本身是要识别的关键实体。人们本身既属于团队、地点或组织,又同时设计或创造事物。因此,如果进一步展开,可以理解物、地、人、企业组织团队、区域位置是重要的、可识别的关键实体。这些实体本身就是一个层次结构,可以向上聚合,向下扩展。比如一个商场本身就属于一个区域,同时商场本身的发展又包含了多个店铺。抽象概念或实例概念在分析实体时,需要注意的是,实体一般是实例化的、具体的,而不是一个抽象的概念。比如你说悲惨世界,悲惨世界可以参考雨果的书,或者某个版本的电影,或者十周年音乐剧。那么我们对实体的研究最好是针对特定的实例级别,比如2012年电影版的悲惨世界。把实体理解清楚了,我们再来看关系的认定。一个人或事物属于一个组织或地区。人们创造、发明或消费某种物品。人与人之间的关系,如家庭成员、同学、同事、伙伴等。层级关系体现在实体本身。扩展和聚合是大多数实体。这种关系体现在上面列举的各个方面。知识图谱的构建知识图谱的构建过程其实相当复杂,但核心主要包括知识抽取、知识存储、实体对齐、知识建模和知识推理等几个关键步骤。对于知识的抽象,无论是结构化数据还是文本等非结构化数据,都需要转化为三元数据结构,以便于构建知识图谱模型。知识抽取完成后,就涉及到知识的存储。目前主流还是使用Neo4j等图数据库来完成。关系数据库中的所有数据库模式都需要提前定义,后续的更改代价高昂。在图模型中,只需要重新添加模式定义,然后在本地调整数据,即可完成对原始数据源添加标签或属性。最近在看和学习知识图谱的一些技术资料,发现一个很大的问题,就是混淆了知识系统和知识图谱这两个概念,把知识系统误认为是知识图谱,用思维导图来构建知识图谱,这是一种非常错误的方法。特别是思维导图本身是以单个节点为中心,完全无法表达多个实体之间的关系信息。类似于网上找到的图片,完全是错误的做法。知识推理过程知识图谱构建完成后,更重要的是进行知识推理,而知识推理本身是基于构建的推理模型,即知识图谱本身所体现的人工智能是基于算法和推理模型的.而不是上一篇文章中提到的基于统计思维的人工智能。什么是知识推理?最常见的是根据实体网络中现有的实体关系来推断实体之间的其他关系。例如,在一个实体三角形中,当两个关系已知时,通常可以推断出未知的关系边。在实体关系中,如果知道雷军是小米科技创始人,林斌是小米科技创始人,那么可以推导出雷军和林斌这两个实体的关系,从好朋友那里加了合伙人关系.第二个最常见的是异常风险检测。即通过知识抽取和收集形成完整的知识图谱后,你会发现整个语义网络中实体之间的关系存在异常。在金融等反欺诈领域,我们经常会遇到相似的知识图谱推理逻辑来发现相关问题,比如常说的多点共享信息,如下图所示:即李明、李飞这三个实体与借款人共享多个相同实体信息,如住址、银行账号、毕业学校等完全相同,则存在金融诈骗的可能。还有串行逻辑推理,最常见的例子类似于股权穿透。比如张三持有A公司50%的股权,A公司持有B公司30%的股权,股权穿透后,张三实际持有A公司15%的股权。当然,张三San还可能通过C公司占有B公司的股权。通过这个由企业和人组成的语义网络,很容易分析计算出公司的实际控制人等具体信息。就目前的情况来看,知识图谱本身的推理不再是简单地基于语义网络的语义模型和规则约束进行推理,而是结合深度学习。即把语义模型导入到深度学习模型中,加强深度学习的推理和预测能力。我们举一个简单的例子,比如推荐系统和推荐引擎。实际核心还是基于大量收集的用户行为数据,但同时,如果导入用户自身友情的语义模型,整个推荐模型可能会更准确。