【导读】《大海知己犹如天涯邻居》,这是石头哥推荐给我的语义网评论文章,发表于《美国计算机学会通讯》第64卷第2期-“语义Web领域的回顾”(https://cacm.acm.org/magazines/2021/2/250085-a-review-of-the-semantic-web-field/fulltext)作者:PascalHitzler。老码农仔细研究,收获颇丰,整理成文档。“语义网”一词与“人工智能”一样,指的是一个研究领域,而不是一个特定的产品。语义网是一个丰富的研究和应用领域,借鉴了计算机科学内部或相邻的许多学科。有时,术语“语义Web技术”用于描述该领域中出现的方法和工具的范围,以避免术语混淆。语义网领域不仅在其研究和应用的方法和目标上非常多样化,而且它还有许多不同但相互关联的子社区,每个子社区都可能产生关于语义网的历史和现状的完全不同的叙述。场。那么,语义??网的研究领域是什么?答案可能是主观的,因为该领域没有明确的共识。一种观点认为,该领域的长期目标是创建语义Web产品,以及创建、维护和应用它们所需的所有必要工具和方法。与大多数主要面向人类消费的当前Web相比,这里的语义Web通常被设想为机器可理解的信息和服务(智能代理),它们利用这些信息来增强当前的Internet。这个观点可以追溯到2001年《科学美国人》的一篇文章,可以说标志着这个领域的诞生。在这种情况下,通过将元数据分配给数据来提供机器可理解的信息。在语义网中,这种元数据通常采用本体的形式,或者至少是一种具有基于逻辑的语义的形式语言,可以对数据的含义进行推理。如果再加上智能代理将使用此信息的理解,您会发现语义网领域与人工智能领域有很大的重叠。事实上,在过去的大多数主要人工智能会议上,都有明显的“语义网”烙印。另一种较新的观点是,语义网领域的开发方法和工具是与互联网无关的应用程序,即使不使用机器可理解的数据构建智能代理也能提供附加值。事实上,早期业界对该领域的兴趣旨在将语义Web技术应用于信息集成和管理。从这个角度来看,这个领域可以说是构建高效(即低成本)的数据共享、发现、集成和重用的方法和工具,而互联网在这方面可能只是数据传输的工具.这种理解使其更接近数据库,或数据科学的数据管理部分。通过将语义网描述为以W3C标准RDF、OWL和SPARQL为核心的本体论、关联数据和知识图谱的基础和应用研究,可以限制该领域,但这实际上可能是一个比较准确的描述。或许,这些观点各有优势。语义网的研究领域存在于它们的融合中。本体、链接数据和知识图是该领域的关键概念。W3C标准围绕RDF、OWL和SPARQL构成,它们在句法(一定程度上是语义)层面上达到了统一;语义Web领域应用的目的是建立有效的数据共享、发现、集成和重用方法(无论是否针对Web);作为驱动力的长期愿景是在某个时候将语义Web建立为基于智能代理的完整应用程序环境。“学术为先,历史为先”,让我们回顾一下过去几年语义Web领域的关键概念、标准和突出成就。语义Web发展的阶段确定一个研究领域诞生的任何特定时间点当然是值得商榷的。然而,Berners-Lee等人2001年的一篇论文。《科学美国人》是一个早期的里程碑,为这个新兴领域提供了重要的启示。而且,在世纪之交,语义网领域在社区规模、学术生产力和最初的工业兴趣方面处于非常显着上升的早期阶段。但是,早先已经做出了努力。从2000年到2006年运行的DAML项目旨在开发一种语义Web语言和相应的工具。欧盟资助的On-To-Knowledge项目于2000-2002年运行,产生了OIL语言,后来与DAML合并,最终产生了WebOntologyLanguage的W3C标准。将机器可读或“可理解”的元数据赋予网络数据的更普遍的想法可以追溯到互联网本身的起源。例如,资源描述框架(RDF)的初稿早在1997年就已发布。从21世纪开始,可以区分出三个重叠的阶段,每个阶段都由一个关键概念驱动,即语义Web领域的主要焦点至少发生了两次转移。第一阶段由本体驱动,跨越2000年代初期至中期;第二阶段由关联数据驱动,一直延续到2010年代初期。到目前为止的第三阶段是由知识图谱驱动的。本体论在21世纪的大部分时间里,该领域的工作都集中在本体论上,尽管这个概念当然有更古老的起源。本体是共享概念化的正式、明确的规范——一个相当笼统的定义,尽管有人可能会争辩说它仍然需要解释。在更精确的意义上,本体实际上是概念(即类型或类别,如“哺乳动物”和“胎生”)及其关系(如“哺乳动物生胎生”)的知识库,以形式化的形式指定基于逻辑的本体语言。在语义Web环境中,本体是数据集成、共享和发现的主要工具,一个重要的思想是本体本身应该可以被其他人重用。2004年,WebOntologyLanguageOWL成为W3C标准,为该领域提供了进一步的动力。OWL的核心是基于描述逻辑,即基于一阶谓词逻辑的子语言,只使用一元和二元谓词,限制量词的使用,并以在逻辑中进行演绎推理的方式设计语言可判定。同样在2004年,资源描述框架(RDF)成为W3C标准。从本质上讲,RDF是一种表达标记化和类型化有向图的语法,它使用OWL来指定类型及其关系的本体,然后在RDF图中使用这些类型,并将这些关系视为边。从这个角度来看,OWL本体可以作为RDF图的模式(或类型逻辑)。一种名为SPARQL的RDF查询语言的W3C标准于2008年发布,并于20133年更新以与OWL更加兼容。围绕RDF、OWL和SPARQL的其他标准已经或正在制定中,其中一些已经取得了重大进展,例如,语义传感器网络本体或起源本体,以及SKOS简单知识组织系统。通过W3C的所有这些关键标准,保持了与其他关键W3C标准的基本兼容性。例如,XML用作RDF和OWL的句法序列化和交换格式。所有W3C语义Web标准也使用IRI作为RDF图中的标识符,并使用OWL类名和数据类型标识符等。在语义Web环境中,本体是数据集成、共享和发现的主要工具,一个重要的思想是本体本身应该可以被其他人重用。DARPA的DAML计划于2006年结束,此后在基础语义Web研究方面几乎没有大规模资助的计划。因此,大多数相应的研究要么转移到应用领域,例如医疗保健或国防中的数据管理,要么转移到相邻领域。相比之下,欧盟的框架计划,特别是FP6(2002-2006)和FP7(2007-2013),为基础和面向应用的语义网研究提供了大量资金。在语义网研究社区的构成中,可以看出这个社区主要是欧洲人。社区的规模难以评估,但自2000年代中期以来,该领域的领先会议国际语义网会议平均每年吸引超过600名参与者。从一开始,工业界的兴趣就很高,但几乎不可能描述有关工业活动相关水平的可靠数据。大公司和小公司已经参与了大规模的基础或应用研究项目,尤其是根据欧盟FP6和7。工业利益改变了研究界的重点。一些大型本体(通常早于语义Web社区)在此期间成熟。例如,GeneOntology始于1998年,现在是一个非常突出的资源。另一个例子是SNOMEDCT,它可以追溯到1960年,但现在在OWL中已经完全正规化,并广泛用于电子健康记录。正如计算机科学研究中经常出现的情况,大约在2005年左右,对短期突破性结果的最初期望开始减弱,人们开始更加冷静地看待这个问题。大多数本体都是在这一时期开发的,通常采用基于意义的临时建模的形式,作为开发尚未产生具体结果的本体的一种手段,因此难以维护和重用。这与当时开发良好本体所需的大量前期成本相结合,为研究界的注意力转移铺平了道路,这可能被理解为与21世纪初强大的基于本体的方法背道而驰。关联数据2006年见证了“关联数据”或“关联开放数据”的诞生,如果焦点是开放的、公开的并且在免费许可下可用的话。关联数据很快成为语义网研究和应用的主要驱动力,并一直持续到2010年左右。关联数据由一组RDF图组成,这些图的相关性在于一个图中的许多IRI标识符也出现在其他图中,可能出现在多个图中。从某种意义上说,所有这些关联的RDF图集合都可以理解为一个非常大的RDF图。如下图所示,公开可用的LinkedRDF图的数量在前十年显着增长;数据来自LinkedOpenDataCloud网站,该网站不包含所有RDF数据集。2015年的一篇论文报道了“来自超过650,000个数据文档的超过370亿个三元组”,这也只是互联网上可免费访问的所有RDF三元组的集合。例如,大型数据提供商通常只提供基于SPARQL的查询接口,或使用RDF进行内部数据组织,而对外仅通过Web页面提供服务。LinkedOpenDataCloud中的数据集涵盖了广泛的主题,包括地理、政府、生命科学、语言学、媒体、科学出版物和社交网络。LinkedDataOpenCloud中RDF图的数量随时间的变化最著名和最常用的LinkedDataset是DBpedia,它是从Wikipedia(以及最近的Wikidata)中提取的LinkedDataset。2016年4月发布的数据集包括约600万个实体和约95亿个RDF三元组。由于其广泛的主题覆盖(基本上是维基百科中的所有内容)以及它是最早可用的链接数据集之一的事实,DBpedia在链接数据开放云中扮演着核心角色:许多其他数据集链接到它,因此它已成为一个关联数据的枢纽。从一开始,业界就对关联数据产生了浓厚的兴趣。例如,BBC是第一个重要的行业贡献者,纽约时报公司和Facebook是早期采用者。然而,该行业的兴趣似乎主要在于利用关联数据技术进行数据集成和管理,而这些技术通常不会出现在开放的互联网上。在链接数据时代,本体扮演的角色不那么重要。它们通常用作可以告知RDF数据集内部结构的模式,但是,与本体时代的过度承诺和深入研究相比,关联数据云中RDF图中的信息是肤浅的和相对简单的。在此期间,有时有人说本体不能重用,一种更简单的方法,主要基于利用RDF和数据集之间的链接,对数据集成、管理以及在线和离线应用程序有更多的影响。现实的作用。也是在这个时期,基于RDF的数据组织词汇与本体关系不大。也是在这段时间(2011年),schema.org开始发挥作用。它最初由Bing、Google和Yahoo推动,后来Yandex也加入进来。它公开了一个相对简单的本体系统,并建议网站提供商使用schema.org的词汇来注释(即链接)他们网站上的实体。作为回报,schema.org背后的网络搜索引擎提供商承诺通过将注释用作元数据来改进搜索结果。2015年,超过30%的页面使用了schema.org注释。2012年启动的另一个重要项目是维基数据,最初是德国维基媒体协会的项目,由谷歌、Yandex和艾伦人工智能研究所等机构资助。维基数据基于与维基百科相似的理念,众包信息。维基百科提供百科全书式文本(人类读者是主要消费者),而维基数据是关于创建可用于程序或其他项目的结构化数据。例如,包括维基百科在内的许多其他维基媒体使用维基数据来提供一些信息,然后将这些信息呈现给人类读者。维基数据已经拥有超过6600万条数据项,自项目启动以来已进行了超过10亿次编辑,并拥有超过20,000名活跃用户。在2010年代初期,关联数据最初的炒作开始让位于更冷静的观点。虽然关联数据确实有一些突出的用途和应用,但事实证明,整合和利用关联数据需要比最初预期更多的努力。可以说,用于链接数据的浅层、非表达性模式似乎是可重用性的主要障碍,并且最初期望数据集之间的互连会以某种方式解释这一弱点似乎没有实现。这不应被解释为低估关联数据为该领域及其应用带来的重大进步:简单地以某种结构化格式提供数据,遵循突出的标准,意味着可以使用现有工具访问、集成和管理数据,然后利用它。这比以句法和概念上更异构的形式提供数据要容易得多。但寻找更有效地共享、发现、集成和重用数据的方法无疑与以往一样重要,并且正在开始发生。知识图谱2012年,当谷歌推出知识图谱时,出现了一个新术语。例如,可以通过在谷歌网站上搜索知名实体来查看部分谷歌知识图:在链接到网页的搜索结果旁边显示一个所谓的信息框,显示来自谷歌知识图的信息。下图显示了此类消息框的示例,可通过搜索KofiAnnan找到。undefined例如,语义网领域作为人工智能的一个子学科,与知识的表示有着密切的关系,因为知识图谱和本体可以用来表示语言是否可以被理解,与语言密切相关在知识表示、描述逻辑作为支撑网络本体的逻辑语言OWL中起着核心作用。语义网的应用需求也推动或启发了对描述逻辑的研究,以及不同知识表示方法(如规则和描述逻辑)之间的衔接研究。数据库的领域显然密切相关,因为(元)数据管理和图形等结构化数据有一个天然的家,也是语义网的重要领域。然而,语义网的研究重点主要集中在异构数据源的概念整合上;例如,如何克服不同的数据组织方式;在大数据方面,语义网的重点主要在于数据的多样性。自然语言处理作为一种应用工具,在知识图谱和本体集成、自然语言查询回答、文本知识图谱或本体构建等方面发挥着重要作用。机器学习,尤其是深度学习,正在提高处理困难任务的能力语义网的上下文,例如知识图补全、数据清理等。同时,正在研究语义网技术以提高人工智能的可解释性。语义网技术的使用也在网络物理系统和物联网的某些方面进行研究,例如智能制造(工业4.0)、智能能源网络和智能建筑等。生命科学的一些领域在相当长的一段时间内受益于语义网技术,例如前面提到的SNOMED-CT和GeneOntology。一般来说,生物医学领域是语义网概念的早期采用者。另一个突出的例子是由语义Web技术驱动的ICD的开发。语义网技术的其他潜在应用领域可以是任何需要数据共享、发现、集成和重用的场景,例如地球科学或数字人文。语义网的未来毫无疑问,语义网领域的宏伟目标尚未实现,无论是将语义网创建为产品,还是提供完全独立的数据共享、发现、集成和重用解决方案。轻松不费力。这并不意味着中间结果没有实际用途,知识图谱、schema.org和生命科学本体的讨论证明了这一点。然而,为了向更大的目标前进,几乎每个子领域的语义网都需要进一步发展。例如,工业知识图谱、本体匹配、信息抽取等。与其重复列表,让我们关注当前挑战的主要短期障碍。在语义Web社区及其应用社区中,有丰富的硬知识和软知识,可以有效地处理数据管理问题。然而,刚刚采用语义Web技术的人们经常发现自己面临着各种声音,他们在推销不同的方法,却很少介绍这些不同方法的优缺点。还有工具包,从不适合实践的粗糙原型到针对特定子问题精心设计的软件,但同样很少有关于哪种工具、哪种方法最能帮助用户实现自己的特定目标的指导。因此,现阶段语义网领域最需要的可能就是整合。作为一个本质上由应用程序驱动的域,这种合并发生在它的各个子域中,从而产生了面向应用程序的流程,其目标、优势和劣势都得到了很好的记录,同时易于使用和对整个流程的支持。集成工具。一些知名的流行软件,如OWLAPI,维基数据的底层引擎Wikibase,或者ELK推理引擎,功能强大,非常有用,但在某些情况下,虽然它们都使用RDF和OWL进行序列化,但仍然不能轻易相互协作。谁可能是这种整合背后的推动力?对于学术界来说,开发和维护稳定、易于使用的软件的动机往往是有限的,因为学术表现(主要以出版物和收到的外部资金总额来衡量)通常与这些活动不一致。匹配。编写高质量的入门教科书是一项极其耗时且在学术上有益的练习。但是,学术界确实通过开发各种范例之间的桥接解决方案以及通过与应用程序域协作开发和实施用例,为集成提供了基础。在行业中,各种整合已经在进行,初创企业和跨国公司采用语义Web技术就是证明。然而,技术细节和内部使用的软件通常都不会共享,大概是为了保护他们的竞争优势。如果是这样的话,相应的软件解决方案变得司空见惯只是时间问题。总结在语义Web存在的前近20年里,语义Web领域产生了大量关于高效数据管理的知识,用于数据共享、发现、集成和重用。通过语义网的应用,可以很好地了解该领域的主要贡献,包括Schema.org、工业知识图谱、维基数据、本体建模应用等。这些应用背后的关键科学发现是什么?不过,这个问题比较难回答。语义网的进步需要计算机科学许多子领域的贡献,其中一项关键任务是如何整合这些贡献以提供适用的解决方案。从这个意义上说,这些应用展示了该领域的重大进步。主流行业正在采用语义Web技术,但是,对更高效的数据管理解决方案的搜索远未结束,并且仍然是该领域的驱动力。
