当前位置: 首页 > 科技观察

知识图谱介绍与应用

时间:2023-03-18 22:02:17 科技观察

人类在获取知识的过程中,越来越关注事物的本质。借助人工智能和大数据分析能力,在其基础上衍生出各种智能应用。其中,知识图谱的构建至关重要。知识图谱初识1.知识图谱的含义AI需要从感知智能走向认知智能。本质上,知识是基础,然后是基于知识的推理,恰好知识图谱其实也有这样的属性。2.知识工程史3.什么是知识信息:指的是外部客观事实,如封面新闻,中国第一家智能媒体知识:是对外部客观规律的归纳和总结,如封面新闻是中国的第一个智能媒体。4.什么是知识图谱知识图谱本质上是一种语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱中,每个节点代表一个存在于现实世界中的“实体”,每一项成为实体之间的“关系”。知识图谱是关系最有效的表示。5.知识图谱的构成实体:可区分的、独立存在的东西。比如某个人,某个城市,某个工厂,某个商品等等。概念:具有相同特征的实体的集合,如国家、民族、书籍、计算机等。内容:通常为实体和语义类的名称、描述、解释等,可以用文字、图像来表达、音视频等。属性:从一个实体指向它的属性值。不同的属性类型对应于具有不同类型属性的边。属性值主要是指对象的指定属性的值。例如,“面积”、“人口”、“首都”是几个不同的属性。属性值主要是指对象的指定属性的值,如960万平方公里等。关系:关系连接不同的实体,是指实体之间的联系。知识图谱中的节点通过关系节点连接起来,形成一个大图。构建知识图谱1.数据类型知识图谱的数据类型包括结构化数据(关系数据库)、半结构化数据(如XML、JSON、Wikipedia)和非结构化数据(如图片、音频、视频等)。文本)。2、逻辑结构模式层:模式层建立在数据层之上,主要是通过本体库来规范数据层中的一系列事实表达。本体是结构化知识库的概念模板。本体库形成的知识库不仅层次结构强,而且冗余度小。数据层:数据层主要由一系列事实组成,知识将以事实为单位进行存储。如果使用(实体1,关系,实体2),(实体,属性,属性值)这样的三元组来表达事实,可以选择图数据库作为存储介质。3.存储方式RDF(ResourceDescriptionFramework):其实质是一种数据模型(DataModel)。它为描述实体/资源提供了统一的标准。简单地说,它是一种表达事物的方法和手段。RDF由节点和边组成。节点代表实体/资源和属性,边代表实体和实体之间的关系以及实体和属性之间的关系。图数据库:在知识图谱方面,图数据库比关系数据库灵活得多。数据少的时候,关系型数据库没有问题,效率也不低。但是随着知识图谱越来越复杂,图数据库的优势会明显增加。当涉及到2,3度的关系查询时,基于图的数据库的效率将比关系数据库高出数千甚至数百万倍。四、技术架构五、知识图谱构建过程知识图谱应用一、信息检索语义搜索-答案检索【原理】对用户使用自然语言提出的问题进行语义分析和语法分析,然后转化为结构化形式的查询语句,然后在知识图谱中查询答案【场景】直接找到问题的答案而不是大量的网页链接关系搜索【场景】快速准确查询两个实体之间的关系可视化展示【场景】直观和清晰呈现概念的所有实例2.智能推荐推荐系统作为信息过滤的重要手段,是解决信息过载问题最有效的方法之一,是面向用户的互联网产品的核心技术。使用推荐服务有两个问题:数据稀疏:在实际场景中,用户和物品之间的交互信息往往非常稀疏。冷启动问题:对于新添加的用户或物品,由于系统没有他们的历史交互信息,无法准确建模和推荐。解决上述问题的一种常见方法是在推荐算法中引入一些额外的辅助信息(1)社交网络(socialnetworks):如果一个用户对某个物品感兴趣,他的朋友也可能对这个物品感兴趣;(2))用户/物品属性(attributes):具有相同属性的用户可能对同一类型的物品感兴趣;图像/视频/音频/文本等多媒体信息(multimedia):如产品图片、电影预告片、音乐、新闻标题等;(3)context(上下文):user-item交互时间、位置、当前session信息等。KnowledgeGraph…知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。知识图谱有潜力应用于许多推荐场景,如电影、新闻、景点、餐厅、购物等。准确性:知识图谱为项目引入更多的语义关系,可以深度发现用户兴趣;多样性:知识图谱提供不同类型的关系连接,有利于推荐结果的发散,避免推荐结果局限于单一类型;可解释性:知识图谱可以将用户的历史记录和推荐结果联系起来,从而提高用户对推荐结果的满意度和接受度,增强用户对推荐系统的信任度。3.反欺诈不一致验证:不一致验证可以用来判断借款人的欺诈风险。比如借款人张三和借款人李四填写的是同一个公司电话,但是张三填写的公司和李四填写的公司完全不同,这就成为一个风险点,需要审核员的额外关注。再比如,借款人说张三是朋友,李四是父子关系。显然,friendoffriend不是亲子关系,所以存在明显的不一致。4、其他行业应用公安刑侦:分析实体关系,获取线索等;司法协助:法律条文的结构化表示和查询,协助案件判决等;电商:构建产品知识图谱,精准匹配用户购买意向和产品候选集合;医学诊断:为药物分析、疾病诊断等提供可视化知识表示。