当语义和机器学习融合时

时间：2023-03-22 01:52:39 科技观察

随着语义和机器学习的融合，AI在历史上一直在两个有点冲突的阵营之间摇摆不定。一方面是诺姆·乔姆斯基、马文·明斯基、西摩·派尔特等人所代表的观点：认知智能本质上是算法；有一套基本的规则是语言的基础，而语言又是智力的基础。另一边是DonaldHebb、FrankRosenblatt、WesleyClarke、HenryKelly、ArthurBrysonJr.和其他人，他们大多默默无闻，他们演变成梯度下降、遗传算法、反向传播和神经网络的其他部分。两个阵营之间的竞争非常激烈。有一次，在Minsky和??Papert对Rosenblatt的感知器（早期神经模型之一）进行了相当严厉的分析之后，争论似乎主要是朝着算法方法的方向发展的。它已经平息了。事后看来，双方面临的主要障碍之一（也是使AI研究停滞不前十多年的障碍）是双方都低估了任何这些模型实际实现所需的计算能力（计算功率增加了21个数量级）；计算机和网络还需要50年才能达到这两种技术中的任何一种实用的程度。事实证明，双方实际上在某些方面是对的，在另一些方面是错的。神经网络（和机器学习）在许多1964年被认为至关重要的问题上变得非常有效：图像识别、自动分类、自然语言处理和系统建模等。类别功能尤其向前迈出了一大步，尤其是考虑到从中受益的大量内容（从Twitter帖子到电影）。与此同时，Minsky和??Papert关于感知器的论点在当前关于机器学习的辩论中得到了回应——可发现性和可验证性都被证明是非常难以解决的问题。如果无法确定特定解决方案为何正确，则意味着存在未正确建模的重要隐藏变量，并且这些变量的限制未知-在存在不连续性和奇异性的情况下，应用模型，除了other当你使用你自己的训练数据以外的任何东西时，你会遇到问题。此外，您将开发逻辑（有时是社会）结构的人为干预问题换成了查找和筛选大量数据的通常耗时费力的操作；可以说，后者的操作实际上是前者的变体。身体，可能效率较低。另一方面，算法方面的情况并不一定好得多。事实上，算法方法有两个方面：分析和语义。分析方法目前被认为是一种数据科学，它使用统计分析（或随机方法）来确定分布和概率。可以说，随机方法的优势在于，给定足够大的数据集，它可以用于确定特定事件发生的可能性，并且准确度在一定的误差范围内。然而，随机方法正在从传统的统计分析转向贝叶斯网络，其中可以借助图形分析来分析单个变量（特征）。另一方面，语义是利用连接断言的网络图并（通过建模）断言本身进行额外断言的能力，这个过程称为具体化。语义非常适合更传统的建模方法，因为传统（关系）建模是语义模型的封闭子集，同时提供文档对象建模语言（DOM）固有的功能，例如XML或JSON证据。重要的是，贝叶斯网络可以呈现为具有具体化的语义图，决策树也可以。实际上，SPARQL查询在每个重要方面都与决策树同构，因为决策树中的每个节点实际上都基于存在特定模式或约束的两个数据集的交集（提示：您想构建监管测试系统？使用SPARQL！).软件开发的历史充满了纯粹主义者和实用主义者。纯粹主义者对他们自己的特定工具和语言采取立场：C++与Java、命令式与声明式、SQL与NoSQL、Perl与...等等。实用主义者通常试图找到一个中间立场，挑选最好的，而忽略争论的喧嚣。大多数纯粹主义者最终会变成实用主义者，但由于大多数程序员往往会在多年后成为项目经理，因此这种学习的实际影响微乎其微。现在，随着神经网络、贝叶斯和语义三重奏中的最新一代，人们有一种强烈的倾向，认为一个人选择的工具是适用于所有潜在情况的好工具。然而，我认为这些最终是图表或处理图表的工具，我相信这种潜在的共性将导致更广泛的大统一。例如：机器学习管道是一个分类器。如果中间分类器的标签对应于一个特定的本体，那么一旦一个特定的实体被分类，该实体的语义表示就可以被分配给相关的模式、形状、类或规则。机器学习系统不是索引，但正如我的孩子所说，它是索引邻接（非常像图形的短语）。本质上，您正在做的是在未知类型的实例和关联的一个或多个类之间创建映射。多个类在这里很重要，因为一个类只不过是一个标记的模式，而继承表示两个这样的模式之间的共同特征。此映射有时也称为反向查询，因为您实际上不是检索满足查询的所有项目，而是检索查询用于其中一项的（命名）模式。可以在SPARQL中创建分类器（说实话更简单）。这是因为SPARQL本质上是寻找三重模式的存在：不仅是为了属性的存在，而且通常是为了寻找二级和三级关系。SHACL是一种RDF模式语言，可以被认为是一种基于特定SHACL构造（和其他部分）生成SPARQL的工具，这些模式可能非常微妙。同样，我认为图分析最终将变得与关系数据分析一样重要，甚至更重要，这主要是因为图可以非常容易地为任何类型的随机过程添加抽象层和可发现性，从而解决当今的许多问题机器学习工具面临的相同问题。这个过程也可以反过来。SPARQL可与入站流一起使用来创建用于为机器语言服务构建训练数据的图形。由于此训练数据已经在现有本体的上下文中进行了标记和识别，因此此过程的好处是生成的分类器已经具有可解释性所需的所有部分：数据源和注释、已建立的标识符、事件时间戳等。另一个重点是SPARQL能够改变它处理的图形。一旦合并了允许在SPARQL调用本身内直接处理外部内容的服务调用，推理（根据在现有断言中发现的模式创建新断言）就变得尤为重要。SPARQL的下一个主要阶段之一将是其检索、处理和生成JSON的能力，无论是作为中间核心对象（软件供应商注意）还是作为RDF的源。这意味着SPARQL的未来版本将不再需要将表格数据存储为RDF，而是可以将其存储为JSON，然后利用该JSON（和相关的分析功能）以一小部分处理资源创建更复杂的推理少得多。对于类似的操作，看看XProcXML管道处理语言，就会意识到XSLT/XQuery管道与RDF/SPARQL/SHACL管道之间的差异大多是表面的。最后一点非常重要，因为正如最新一代的Agile/DevOPS/MachineLearning运营模型所显示的那样，管道和转换是未来。如果可以处理链式转换（尤其是特定管道由上下文确定而不是预先确定的转换），这样的管道开始看起来越来越像有机认知过程。原标题：WhereSemanticsandMachineLearningConverge，作者：KurtACagle

上一篇：如何掌握C#的核心技术

下一篇：必备技能！为Java多线程应用程序优化数据存储库

当语义和机器学习融合时相关文章