嘉宾|王林堂|张峰人工智能有两个比较大的派系:理性主义和经验主义。但在真正的工业级产品中,两派相辅相成。如何将更多的可控性和更多的知识引入到这个模型的黑盒中,需要应用知识图谱等符号知识。日前,在泰饭科技主办的WOT全球技术创新大会上,泰饭科技CTO王林博士为与会者带来了一场别开生面的演进《图数据库:通往认知智能的新途径》,重点介绍了图数据库模型的历史与演进;智能化的重要途径,以及图数据库设计和OpenGauss上的实践经验。现将演讲内容整理如下,希望对大家有所启发:从某个维度来说,人工智能可以分为两类,一类是联结主义,也就是我们熟悉的深度学习,模拟人的结构大脑做一些感知、识别、判断的事情。另一类是象征主义,通常模拟人的思维。认知过程是对符号表征的操作。因此,它常常被用来进行一些思考和推理。一个典型的代表技术就是知识图谱。图增强人工智能的四种方法1.场景决策知识图谱本质上是一个基于图的语义网络,它表示实体和实体之间的关系。在较高的层次上,知识图谱也是相互关联的知识的集合,它以人类可以理解的形式描述了现实世界与实体和事物之间的关系。知识图谱可以为我们带来更多的领域知识和上下文信息,帮助我们做出决策。从应用的角度来看,知识图谱可以分为三种类型:一种是领域相关的知识图谱。从结构化和半结构化数据中提取的知识形成知识图谱,与领域相关。最典型的应用是谷歌的搜索引擎。二是外部感知的知识图谱。聚合外部数据源并将它们映射到感兴趣的内部实体。一个典型的应用是在供应链风险分析中,通过供应链,可以看到供应商及其上下游、工厂等供应链的信息,从而分析哪里存在问题,是否存在问题。中断的风险。三是自然语言处理知识图谱。自然语言处理包含大量的技术术语甚至领域关键词等,可以帮助我们做自然语言查询。2.提高运行效率机器学习方法往往依赖于表中存储的数据,而这些数据大部分是资源密集型操作。知识图谱可以提供高效领域的相关内容,连接数据,链接面可以实现多层次的解析,有利于大规模快速分析。从这个角度来看,图本身加速了机器学习的效果。此外,机器学习算法通常必须对所有数据进行计算。通过简单的图查询,返回想要的数据的子图,加快运行效率。3.提高预测精度关系往往是行为的最强预测因子,关系的特征可以很容易地从图中得到。通过关联数据和关系图,可以更直接地提取关系的特征。但在传统的机器学习方法中,有时在对数据进行抽象和简化时,实际上会丢失很多重要信息。因此,关系特征使我们能够在不丢失这些信息的情况下进行分析。此外,图算法简化了发现异常(如紧密社区)的过程。我们可以对紧密社区中的节点进行评分,并提取该信息以用于训练机器学习模型。最后,使用图形算法执行特征选择,以将模型中使用的特征数量减少到最相关的子集。4.可解释性近年来,我们经常听到“可解释性”,这也是人工智能在应用过程中面临的一个特别大的挑战。我们需要了解人工智能是如何得出这个决定、这个结果的,同时可解释性有很多诉求,尤其是在医疗、金融、司法等特定应用领域。可解释性包括三个方面:(1)可解释的数据。我们需要知道为什么选择数据,数据的来源是什么?数据必须是可解释的。(2)可解释的预测。可解释的预测意味着我们需要知道特定预测使用了哪些特征,以及使用了哪些权重。(3)可解释的算法。可解释算法的前景非常诱人,但还有很长的路要走。目前研究领域已经提出了张量网络,利用此类方法可以使算法具有一定的可解释性。主流图数据模型既然图对于人工智能的应用和发展如此重要,那么我们如何才能用好它呢?首先要注意的是图的存储管理,即图数据模型。目前最主流的图数据模型有两种:RDF图和属性图。1.RDFGraphRDF全称ResourceDescriptionFramework,是W3C开发的一种标准数据模型,用于表示语义万维网上交换机器可理解的信息。在RDF图中,每个资源都有一个HTTPURL作为其中的唯一ID。RDF定义是三元组的形式,代表一个事实陈述,其中S代表主语,P是谓语,O是宾语。图中,Bob对TheMonoLisa很感兴趣,陈述了一个事实,这是RDF图。RDF图对应的数据模型有自己的查询语言——SPARQL。SPARQL是W3C开发的RDF知识图谱标准查询语言。SPARQL在语法上借鉴了SQL,是一种声明式查询语言。查询的基本单位也是三元组模式。2.Propertygraph在PropertyGraph模型中,每个顶点和边都有一个唯一的ID,顶点和边也有一个标签,相当于RDF图中的资源类型。此外,顶点和边也有一组属性,由属性名和属性值组成,从而形成属性图模型。同样的属性图模型还有一套查询语言——Cypher。Cypher也是一种声明式查询语言。用户只需声明要检查的内容,而不用指出如何检查。Cypher的一大特点是使用ASCII艺术语法来表达图形模式匹配。随着人工智能的发展,认知智能的发展和知识图谱的应用越来越多。因此,图数据库近年来越来越受到市场的关注,但图目前面临的一个重要问题是数据模型和查询语言的不一致,这是一个亟待解决的问题。研究OpenGauss图数据库的动机研究OpenGauss图数据库主要有两个出发点。一方面,我想利用知识图谱本身的特点。比如在高性能、高可用、高安全、易运维等方面,数据库能够将这些特性融入到图数据库中是非常重要的。另一方面,考虑图形数据模型。目前,有两种数据模型和两种查询语言。如果我们把这两种不同的查询语言背后的语义操作符对齐,比如关系型数据库中的projection、selection、join,如果我们把SPARQL和Cypher背后的语义对齐,就提供了两种不同的语法视图,自然就达到了一种互操作性。即内部语义可以保持一致,这样就可以用Cypher查询RDF图,用SPARQL查询属性图,形成一个很好的特性。OpenGauss—GraphArchitecture在底层使用OpenGauss,将关系模型作为图存储物理模型。其思想是使RDF图和属性图不一致,通过寻找最大公约数在底层物理存储上统一。基于这种思想,OpenGauss-Graph架构的底层是基础设施,其次是访问方式、统一属性图、RDF图处理和管理方式。其次是统一的查询处理执行引擎,支持统一的语义算子,包括子图匹配算子、路径导航算子、图分析算子、关键字查询算子。再往上是统一的API接口,提供SPARQL接口和Cypher接口。此外,还有统一的查询语言语言标准和交互式查询的可视化界面。存储方案的设计设计存储方案时主要考虑以下两点:(1)不能太复杂,太复杂的存储方案效率不会太高。(2)必须能够巧妙地容纳两种不同知识图谱的数据类型。所以就有了点表和边表的存储方案。有一个共同点表叫属性,不同的点会有继承关系;边桌也会继承不同的边桌。不同类型的点表和边表都会有一个副本,这样就维护了一个点表和边表集合的存储方案。如果是属性图,不同的标签点找不同的点表,比如一个教授找一个教授点表。点的属性映射到点表中的属性列;边表也是一样,authors映射到authors边表,edge映射到边表中的一行,有起始节点和结束节点的ID。通过这样一种看似简单但实际上通用性很强的方法,可以从物理层统一RDF图和属性图。然而,在实际应用中存在大量的无类型实体。此时,我们采用将语义分类到最接近的类型表中的方法。查询处理实践除了存储,最重要的是查询。在语义层面,我们实现了操作的对齐,实现了SPARQL和Cypher两种查询语言的互操作。在这种情况下涉及两个层次:句法和形态,它们的解析不能相互矛盾。这里引用了一个关键词。比如勾选SPARQL,就开启SPARQL的语法,勾选Cypher,就开启Cypher的语法,避免冲突。我们还实现了许多查询运算符。(1)子图匹配查询,查询所有的作曲家、他们的作品、作曲家的生日是一个典型的子图匹配问题。可以分为属性图和RDF图,它们的大体处理流程也是一致的。例如,将对应的点添加到连接列表中,然后添加对properties列的选择操作,然后强制连接头尾两个点模式对应的点表。RDF图对边表的起点和终点进行重要的操作,最后对变量加上投影约束,输出最终的结果。这个过程是相似的。子图匹配查询还支持一些内置函数,比如FILTER函数,它限制了变量形式、逻辑运算符、聚合和算术运算符。当然,这部分还可以不断扩展。(2)导航查询,这是传统关系型数据库所没有的。下图左侧是一个社交网络小图。这是一个有向图。可见识别是单向的。汤姆认识帕特,但帕特不认识汤姆。在导航查询中,如果进行两跳查询,看谁认识汤姆。如果是0跳,Tom就知道自己了。1跳意味着Tom认识Pat,而Tom认识Summer。2跳是Tom遇到了Pat,然后遇到了Nikki,然后又遇到了Tom。(3)关键字查询,这里举两个例子,tsvector和tsquery。一种是将文档转换为术语列表;另一种是查询向量中是否存在指定的词或短语。当知识图谱中的文字比较长,有比较长的属性时,这个功能用来给它提供关键词搜索功能,也是非常有用的。(4)解析查询对于图数据库有自己特有的查询,比如最短路径和Pagerank等,都是基于图的查询算子,可以在图数据库中实现。比如查Tom到Nikki的最短路径,通过Cypher实现最短路径的算子,可以输出最短路径,找到结果。除了上面提到的功能,我们还实现了可视化交互工作室,可以在其中输入Cypher和SPARQL查询语言,得到可视化直观的图形,用于图形的维护、管理和应用。许多交互可以在平台上进行。未来我们会加入更多的算子、图查询、图搜索,实现更多的应用方向和场景。最后,欢迎大家访问OpenGaussGraph社区,也欢迎对OpenGaussGraph感兴趣的朋友作为新的贡献者加入社区,共同建设OpenGaussGraph社区。嘉宾介绍王琳,工学博士,OpenGauss图数据库社区维护者,泰帆科技CTO,高级工程师,中国计算机协会YOCSEF天津21-22副理事长,CCF信息系统专业委员会常务理事,入选天津市131人才工程.
