当前位置: 首页 > 科技观察

机器学习无法解决自然语言理解

时间:2023-03-21 14:50:19 科技观察

体验和数据驱动的革命1990年代初席卷人工智能(AI)的统计革命在2000年代达到顶峰。神经网络作为现代深度学习(DL)卷土重来,席卷了人工智能的所有子领域。尽管深度学习最具争议的应用是自然语言处理(NLP),但它带来了实证转向。数据驱动的实证方法在NLP中的广泛使用是由于以下原因:符号和逻辑方法未能产生可扩展的NLP系统,从而导致了所谓的实证方法的兴起。这种向经验主义转变的动机很简单:在我们深入了解语言的工作原理以及它与我们所说的内容之间的关系之前,经验和数据驱动的方法可能有助于构建一些实用的文本处理应用程序。正如EMNLP的先驱之一肯尼斯·丘奇(KennethChurch)解释的那样,NLP的数据驱动和统计方法的支持者对解决简单的语言任务感兴趣,他们从来没有动机暗示这就是语言的工作原理,但它是“做简单的事情更好总比什么都不做好”。根据Church的说法,这种转变的动机一直被严重误解,认为这种“可能近似正确”(PAC)范式将扩展到完全自然语言理解。“新的和当代的NLP研究人员对语言学和NLP的理解存在差异,因此这种误入歧途的倾向导致了一种不幸的情况:坚持使用“大型语言模型”(LLM)来构建NLP系统,这需要巨大的计算能力并试图通过记忆大量数据来逼近自然语言。这几乎是徒劳的尝试。我们认为,这种伪科学方法不仅浪费时间和资源,而且还会引诱新一代年轻科学家认为语言只是数据,更糟糕的是,这样一种方法会阻碍自然语言理解(NLU)的任何真正进步。相反,是时候重新思考NLU方法了。因为我们确信,NLU的“大数据”方法不仅在心理上、认知上,甚至在计算上都难以理解操作,这种盲目数据驱动的NLU方法在理论上和技术上都存在缺陷。语言处理和语言理解虽然NLP(NaturalLanguageProcessing)和NLU(NaturalLanguageUnderstanding)经常互换使用,但两者之间存在巨大差异。事实上,认识到它们之间的技术差异将引导我们采用数据驱动的机器学习方法。虽然机器学习可能适用于某些NLP任务,但它们几乎与NLU无关。考虑最常见的“下游NLP”任务:概述——主题提取——命名实体识别(NER)——(语义)搜索——自动标记——正确聚类(PAC)范式。具体来说,评估一些NLP系统对上述任务的输出是主观的,没有客观的标准来判断某个系统是否比另一个系统更好地提取主题。但是,语言理解不允许有任何程度的错误,他们要完全理解一句话或一个问题,说话者试图传达的唯一想法。例如,对于这句话,自然语言理解需要考虑多种可能性:我们有没有一位在冷战时期驻扎在东欧国家的退休BBC记者?某些数据库对上述查询只有一个正确答案。所以将上面的转换成正式的结构化查询语言查询是一个巨大的挑战,因为我们不能出错。这个问题背后的“确切”思考包括:正确解释“退休的BBC记者”——即所有为BBC工作的记者现在都退休了。通过保留在某些“东欧国家”工作的“退休BBC记者”进一步过滤上述内容。除了地域限制,还有一个时间限制,就是这些“退休的BBC记者”的工作时间必须是“冷战时期”。上面的意思是把介词短语放在'duringthecoldwar',而不是'anEasternEuropecountry'(如果'duringthecoldwar'被替换为'hasmembershipinWarsaw',考虑一个不同的介词短语')来做正确量化:我们不是在寻找在“一些”东欧国家工作的记者,而是在“任何”东欧国家工作的“任何”记者。上述具有挑战性的语义理解功能都不可能是“大致”或“可能”正确的——它们是绝对正确的。换句话说,我们必须从上述问题的多种可能解释中得出一个独特的含义。总而言之,真正理解普通口语与单纯的文本(或语言)处理是一个完全不同的问题。在文本(或语言)处理中,我们可以接受近似正确的结果。这时候我们应该可以清楚地理解:为什么NLP不同于NLU,为什么NLU难于机器。但NLU困难的根源究竟是什么?为什么NLU困难:文本容易丢失首先是“文本缺失现象”(MTP),我们认为这是自然语言理解中所有挑战的核心。口头交流如下图所示:说话者将思想“编码”为某种自然语言的话语,听者将话语“解码”为说话者打算/希望传达的思想。“解码”的过程就是NLU中的“U”——即理解话语背后的思想。说话人与听话人之间的思想语言交流另外,“解码”的过程必须没有错误,才能从说话人的话中找出唯一的意图。这正是NLU困难的原因。在这种复杂的交流中,有两种优化交流的方案:说话者可以压缩(和最小化)思想编码中发送的信息量,或者听者可以做一些额外的工作来解码(解压缩)话语;说话者做更多的工作,将他想传达的思想信息全部告诉听者,减轻了听者的工作量。这种优化减少了说话者的编码信息,也遗漏了听者可用的信息,但不会造成对话背景信息的丢失。例如,将下方黄色框中的未优化文本与下方绿色框中的优化(等效但小得多)文本进行比较。绿色方框内较短的信息(这就是我们通常所说的)与较长的方框传达的意思相同。通常,我们不会明确说明其他所有内容,因为我们都知道。人类花了将近20万年的时间才进化出这项技能。但这就是NLU的问题:机器不知道我们遗漏了什么,它们不知道我们都知道的东西。最终的结果是NLU非常困难,如果它们不能以某种方式“理清”我们单词的所有含义,那么软件程序将永远无法完全理解我们单词背后的想法。NLU的挑战不是解析、阻塞、词性标注、命名实体识别等,而是解释或揭示那些缺失的信息。并隐含地假定共享和共同的背景知识。在此背景下,我们现在提出机器学习和数据驱动方法无法为自然语言理解提供解决方案的三个原因。ML方法甚至与NLU无关:ML是压缩的,语言理解需要解压困难是因为我们日常口语是高度压缩的,所以“理解”的挑战是解压(或找到)丢失的文本。机器的语言理解很困难,因为机器不知道我们都知道什么。但是MTP现象正是为什么数据驱动和机器学习方法虽然在某些NLP任务中可能有用,但甚至与NLU无关的原因。在这里,我们提供证据证明机器可学习性(ML)和可压缩性(COMP)之间的等价性是在数学上建立的。也就是说,已经确定只有在数据高度可压缩(未压缩数据具有大量冗余)的情况下才有可能从数据集中学习,反之亦然。虽然可压缩性和可学习性之间的证明在技术上相当复杂,但实际上很容易理解:学习是关于摄取大量数据并在“覆盖”整个数据集(以及具有相同模式的未见数据)的多维空间中找到一个函数/分配)。因此,当所有数据点都可以压缩时,就会出现可学习性。但是MTP告诉我们,NLU是关于减压的。因此,我们梳理出以下几点:机器学习是关于发现一个可以概括大量数据的函数。另一方面,由于MTP,自然语言理解需要智能“解压缩”技术,可以找到所有丢失和隐含的假定文本。因此,机器学习和语言理解是不相容的——事实上,它们是矛盾的。ML方法甚至与NLU无关:统计上无意义的ML本质上是一种基于在数据中发现某些模式(相关性)的范例。因此,该范式的希望是在捕获自然语言时发现各种现象在统计上的显着差异。但是,请考虑以下情况):奖杯无法放入手提箱,因为它太大了1a。小1b。large请注意,“small”和“big”(或“open”和“closed”等)是反义词/反义词,在相同的上下文中以相同的概率出现。因此,(小)和(大)在统计上是等价的,但即使是4岁的(小)和(大)也有显着差异:“它”在(小)中表示“手提箱”,而在(大)中它指代到“奖杯”。基本上,用简单的语言来说,(1a)和(1b)在统计上是等价的,尽管在语义上远非如此。因此,统计分析无法建模(甚至近似)语义——就这么简单!有人可能会争辩说,只要有足够的例子,一个系统就可以建立统计显着性。但是需要多少示例才能“学习”如何解析结构中的引用(如(1)中)?在机器学习/数据驱动的方法中,没有类型层次结构,我们可以了解“包装”、“便携式”盒子、“公文包”等,所有这些都被认为是通用类型“容器”的子类型。因此,上述每个模式,在纯数据驱动的范式中,都是不同的,必须在数据中单独“看到”。如果我们将上述模式的所有小语法差异添加到语义差异(例如更改“因为"到"though",这也改变了对"it"的正确引用),然后粗略的计算告诉我们,机器学习/数据驱动系统需要查看以上40000000种变体来学习如何解析句子中的引号。这是计算上的难以置信,如果有的话。正如Fodor和Pylyshyn曾经引用著名认知科学家乔治米勒的话,为了捕捉NLU系统所需的所有句法和语义变化,神经网络可能需要比宇宙中的原子更多的特征!道德这里是:统计s无法捕获(甚至近似)语义。ML方法甚至与NLU无关:意向逻辑学家长期以来一直在研究语义概念,试图用语义三角形来解释什么是“内涵”。符号用于指代一个概念。概念可能有实际对象作为实例,但有些概念没有实例。例如,神话中的独角兽只是一个概念,没有独角兽的实际实例。类似地,“取消的旅行”是指一个实际上没有发生的事件,或者一个从未存在过的事件等。因此,每个“事物”(或每个认知对象)都包含三个部分:符号、概念符号所指的,以及概念所具有的具体实例。我有时会这么说,因为“独角兽”这个概念没有“实际”实例。概念本身是其所有潜在实例的理想化模板(因此它接近柏拉图的理想化形式)既定的事实等。然而,概念与实际(不完美)的例子并不相同,这在数学世界中也是如此。所以,例如,下面的算术表达式虽然外延相同,但语气不同:内涵决定外延,但外延本身并不完全代表概念。上述对象仅在一个属性上相等,即它们的值在许多其他属性上不同。在语言中,不应该混淆相等和同一性,如果对象在某些属性值上相等,则不能认为它们是相同的。因此,尽管所有表达式的计算结果都相同,因此在某种意义上是相等的,但这只是它们的属性之一。事实上,上述表达式还有其他几个属性,比如它们的句法结构、运算符的个数、操作的个数等。值(它只是一个属性)称为外延,而所有属性的集合称为内涵.在应用科学(工程学、经济学等)中,我们可以有把握地假设它们仅等于属性,但在认知(尤其是语言理解)中,这种等式失败了!这是一个简单的例子:假设(1)为真,即假设(1)实际发生并且我们看到/见证了它。然而,这并不意味着我们可以假设(2)为真,尽管我们所做的只是将(1)中的“1b”替换为(假设)等于它的值。所以发生了什么事?我们用一个被认为等于它的对象替换了true语句中的一个对象,然后我们从true中推断出它不是!虽然在物理科学中我们可以很容易地用A属性来代替与其相等的对象,但这在认知上是行不通的!这是另一个可能与语言更相关的示例:通过简单地将“亚历山大的导师”替换为其相等的值,即亚里士多德,我们得到(2),这显然是荒谬的。同样,虽然“MentorofAlexandertheGreat”和“Aristotle”在某种意义上是平等的(它们都具有相同的指称值),但两个思想对象在许多其他属性上不同。那么,这个讨论“内涵”的意义何在?自然语言充满了内涵现象,因为语言具有不可忽视的内涵。但是机器学习/数据驱动方法的所有变体都是纯粹外延的——它们对对象的数值(向量/张力)表示进行操作,而不是对它们的符号和结构属性进行操作,因此在这种范式中我们不能使用自然语言来模拟各种内涵。顺便说一句,神经网络是纯粹可扩展的,因此不能表示内涵,这是它们总是容易受到对抗性攻击的真正原因,尽管这个问题超出了本文的范围。结论在本文中,我讨论了机器学习和数据驱动方法甚至与NLU无关的三个原因(尽管它们可以用于某些本质上是压缩任务的文本处理任务)。以上三个原因本身就足以结束这种夸张的自然语言理解数字工程。人类交流思想时,实际上是在传递高度压缩的语言表达,需要大脑解释和“揭示”所有缺失但隐含假定的背景信息。语言是承载思想的人工制品,因此在构建越来越大的语言模型时,机器学习和数据驱动方法徒劳地追逐无穷大,因为它们试图找到数据中甚至不存在的东西。我们必须认识到,普通口语不仅仅是语言数据。编译来源:MachineLearningWon'tSolveNaturalLanguageUnderstanding(thegradient.pub)