自然语言理解(NLU)是人工智能的核心课题之一,被广泛认为是最困难和最具标志性的任务。近年来,虽然机器学习得到了广泛应用,但并不能很好地解决自然语言理解问题。可能有很多原因。ONTOLOGIK.AI创始人兼首席NLU科学家WalidSaba给出了自己的观点。统计革命在1990年代初取代了人工智能,并在2000年达到顶峰,神经网络凭借深度学习成功卷土重来。这种实证转变已经席卷了人工智能的所有子领域,该技术最具争议的应用是自然语言处理。数据驱动的实证方法在NLP中广泛使用的原因主要包括:符号和逻辑方法在霸权三十年后未能产生可扩展的NLP系统,导致所谓的NLP中的实证方法(EMNLP)兴起,这些方法可以统称为数据驱动、基于语料库、统计和机器学习。这种向经验主义转变背后的动机很简单:在我们了解语言的工作原理以及语言与我们在日常口语中谈论的世界的关系之前,经验和数据驱动的方法有助于构建文本处理应用程序。正如EMNLP的先驱之一KennethChurch解释的那样,在NLP领域,提倡对解决简单语言任务感兴趣的数据驱动和统计方法的研究人员从来没有动机暗示这就是语言的工作方式,但做简单的事情是总比什么都不做好。Church认为,这种转变的动机被严重误解了,正如McShane在2017年指出的那样,后代误解了这种经验趋势。KennethChurch,EMNLP会议的创始人和先驱之一。这种被误导的趋势导致了一种不幸的情况:坚持用需要巨大计算能力的大型语言模型(LLM)构建NLP系统,并试图通过记忆大量数据来近似自然语言对象,这种做法是徒劳的。这种伪科学方法不仅浪费时间和资源,还会误导新一代年轻科学家认为语言就是数据。更糟糕的是,这种做法还阻碍了自然语言理解(NLU)的发展。相反,是时候重新考虑NLU方法了,因为NLU的大数据方法不仅在心理上、认知上,甚至在计算上令人难以置信,而且盲目数据驱动的方法在理论上和技术上也是合理的。有缺陷的。自然语言处理与自然语言理解尽管自然语言处理(NLP)和自然语言理解(NLU)经常互换使用,但需要强调的是,两者之间存在实质性差异。事实上,区分NLP和NLU之间的技术差异,我们可以意识到数据驱动和机器学习方法虽然适用于NLP任务,但与NLU无关。以NLP中最常见的下游任务为例:总结;主题提取;命名实体识别;语义检索;自动贴标;聚类。上述任务符合PAC(ProbablyApproximatelyCorrect)范式。具体来说,NLP系统的输出评估是主观的:没有客观的标准来判断一个总结比另一个更好,或者一个系统提取主题、短语比另一个更好等。但是,自然语言理解不允许这样自由程度。要完全理解一句话或一个问题,需要理解说话者试图表达的唯一想法。要理解这个复杂的过程,请考虑一个自然语言查询:我们是否有一位退休的BBC记者在冷战期间驻扎在东欧国家?在数据库中,上述查询将只有一个正确答案。将上述表达式转换为正确的SQL或SPARQL查询非常具有挑战性。这个问题背后的要点包括:需要正确解读“退休的BBC记者”,即所有为BBC工作过的退休记者的集合;记者”进一步过滤上述内容。除了地域限制外,还有时间限制,那些“退休的BBC记者”必须在“冷战期间”工作;以上意思是在冷战期间附加介词短语”改为“驻扎”而不是“东欧国家”;正确的量词范围界定:我们不是在寻找在某个东欧国家工作的一名(单一)记者,而是在任何东欧国家工作的任何记者。上述语义理解将不可能或大致正确,但非常确定和绝对正确。换句话说,我们必须根据常识从对上述问题的多种可能解释中得出一个单一的含义,以推断出提问者问题背后的想法。所有总而言之,真正理解普通口语是一个与单纯的文本(或语言)处理完全不同的问题。在文本(或语言)处理中,我们可以接受近似正确的结果——也就是以可接受的概率正确的结果。从这个简短的描述中,应该很清楚为什么NLP与NLU不同,以及为什么NLU对机器来说很难。但是NLU的难点到底是什么?NLU的难点在于文本缺失现象。所谓缺失文本现象(MTP),可以理解为NLP任务挑战的核心。语言交流的过程如下图所示:说话者将思想编码成某种语言表达,然后听者将语言表达解码成说话者想要传达的思想。图1:说话者和听者之间的语言交流过程。解码过程是NLU中的U——也就是说,理解语言话语背后的思想正是解码过程需要做的。此外,在这个解码过程中没有近似或任何自由度——也就是说,说话者想要表达的思想只有一个,就话语的许多可能含义而言,以及解码中的“理解”processmustreach这个思路,这也正是NLU难的原因。在这种复杂的交流中,有两种可能的优化:(1)说话者可以压缩(和最小化)编码中发送的信息量,期望听者做一些额外的工作;(2)说话者尽最大努力传达所有必要的信息以传达思想,而听者几乎什么都不用做。随着过程的自然演进,上述两种方案似乎达到了一个很好的平衡,即说话者和听者的整体工作都得到了同样的优化。这种优化导致说话者能够编码尽可能少的信息,同时忽略其余信息。缺失信息是通过对说话者和听者双方安全的假设可以得到的信息,也就是我们常说的普通背景知识。要理解这个过程的复杂性,以下图为例:黄色框中未优化的信息,以及我们通常所说的文本信息(绿色框中的信息),信息量相同但要小得多。绿色盒子里的信息要短得多,这就是我们说话的方式,语言很短,但传达的意思与较长的信息相同。通常我们不会把想说的都说清楚:也就是说,为了有效沟通,我们在沟通时通常不会说出我们认为对方知道的信息。这也是为什么我们都倾向于忽略相同的信息——因为我们都知道每个人都知道的事情,这就是我们所说的共同背景知识。人类在大约200,000年的进化过程中开发了这个天才的优化过程,非常有效。但这就是NLU的问题:机器不知道我们遗漏了什么信息,因为机器不知道我们都知道什么。最终的结果是NLU非常困难,因为如果一个软件程序不能以某种方式揭示人类在语言交流中遗漏和隐藏的所有东西,它就不能完全理解我们语言话语背后的思想。这真的是NLU的挑战,不是解析、词干提取、词性标注、命名实体识别等。图2:NLU中的许多挑战都是由于缺失文本的现象:缺失文本(隐式假设)显示图中红色的。上面的例子表明,NLU的挑战是找到缺失的信息,并隐式地将这些信息视为共享背景知识。下面的图3进一步解释了缺失文本现象:我们在下面给出三个原因来解释为什么机器学习和数据驱动方法无法解决NLU问题。ML方法与NLU无关:ML是压缩,语言理解需要解压文本。这对人类来说是一件很简单的事情,但是对机器来说就很不一样了,因为机器不知道人类拥有的知识。但MTP现象正是数据驱动和机器学习方法在NLP任务中表现良好,但在NLU中表现不佳的原因。研究人员在数学上建立了可学习性和可压缩性(COMP)之间的等价关系。也就是说,仅当数据高度可压缩(即具有大量冗余)时,数据集中才会出现可学习性,反之亦然。虽然证明可压缩性和可学习性之间的关系相当复杂,但直观上很容易理解:可学习性是关于理解大数据,是在覆盖所有数据集信息的多维空间中找到一个函数。因此,当所有数据点都可以压缩成流形时,就会出现可学习性。但是MTP告诉我们,NLU是关于减压的。以下面的例子:机器学习是将大量数据泛化成一个单一的函数。另一方面,由于MTP,自然语言理解需要智能解压缩技术来发现所有缺失和隐式假设的文本。因此,机器学习和语言理解是不相容的——事实上,它们是矛盾的。ML方法甚至与NLU无关:没有太大的统计意义ML本质上是一种基于数据发现某些模式(相关性)的范例。研究人员预计自然语言中出现的各种现象在统计学上存在显着差异。例如:1.奖杯装不下手提箱,因为它太大了。小1b。大同义词和反义词(如small和big、on和off等)出现在上下文中的概率是相等的,所以,统计上说(1a)和(1b)是等价的,但是(1a)和(1b)代表什么也完全不同:在这句话中,(1a)中的“它”暗示(1b)中的Smallbins和largetrophies在统计上等同于(1a)和(1b),尽管它们的语义完全不同。因此,统计分析无法对语义进行建模(甚至是近似)。ML方法甚至与NLU无关:意图逻辑学家长期以来一直在研究称为“意图”的语义概念。为了解释什么是“内涵”,首先要从所谓的语义三角(meaningtriangle)说起,如下图所示:在语义三角中,每个“事物(或每个认知对象)”都有三个parts:指代概念的符号,以及该概念(有时)具有的一些实例。以“独角兽”的概念为例,现实生活中并没有实际的例子。概念本身是其所有潜在实例的理想化模板。可以想象,几个世纪以来,哲学家、逻辑学家和认知科学家一直在争论概念的本质及其定义。同意一件事:一个概念(通常由某些符号/标签引用)由一组属性和属性定义,可能还有其他公理、既定事实等。但是,概念与实际(不完美)不同例如,在完美的数学世界中也是如此。例如,虽然下面的算术表达式都有相同的展开,但它们有不同的“内涵”:上图中所有表达式的值都是16,在某种意义上是相等的(它们的值),但这只是属性之一.其实上面的表达式还有其他几个属性,比如语法结构(为什么a和d不一样),运算符的个数等等。值只是一个属性,可以称之为扩展,是所有属性的集合是一种内涵。在应用科学(工程学、经济学等)中,如果这些对象的价值相等,我们可以认为它们相等,但在认知中,这种相等是不存在的。例如:假设(1)为真——也就是说,假设(1)确实发生了并且我们亲眼目睹了它。尽管如此,这并不意味着我们可以假设(2)为真,尽管我们所做的只是将(1)中的16替换为等于其值的(假设)。我们已经用一个应该等于它的对象替换了语句中的一个对象,并且我们已经从真实的事物中推断出不真实的事物!虽然在物理科学中很容易用具有属性的对象替换它,但这在认知中行不通。总之,本文讨论了机器学习和数据驱动方法与NLU无关的三个原因(尽管这些方法可能对一些本质上是压缩任务的文本处理任务有用)。在交流我们的想法时,我们传输高度压缩的口头信息,需要大脑解释和揭示所有缺失但隐含的上下文信息。在许多方面,在构建大型语言模型时,机器学习和数据驱动方法都在徒劳地尝试寻找数据中根本不存在的东西。我们必须意识到,日常口语信息并不是理想的语言数据。
