当前位置: 首页 > 科技观察

研究表明大型语言模型在逻辑推理方面存在问题_0

时间:2023-03-21 20:27:55 科技观察

研究表明,大型语言模型对逻辑推理问题既兴奋又担心。近年来,大型语言模型(LLM),即在大量文本上训练的深度学习模型,在用于衡量语言理解的多个基准测试中表现良好。GPT-3和LaMDA等大型语言模型设法在较长的文本中保持连贯。他们似乎对不同的主题知识渊博,并且在整个冗长的对话中始终如一。大型语言模型(LLM)已经变得如此令人信服,以至于一些人将它们与个性和更高形式的智力联系起来。但是大型语言模型(LLM)能否像人类一样进行逻辑推理?根据加州大学洛杉矶分校科学家发表的一篇研究论文,Transformers是一种用于大型语言模型(LLM)的深度学习架构,它不会学习模拟推理功能。相反,计算机已经找到了学习推理问题中固有的统计特征的巧妙方法。研究人员在有限的问题空间中测试了流行的Transformer架构BERT。他们的结果表明,BERT可以准确地响应训练空间中一个分布内示例的推理问题,但不能泛化到基于相同问题空间的其他分布中的示例。这些测试突出了深度神经网络的一些缺点以及用于评估它们的基准。1、如何衡量人工智能中的逻辑推理?针对自然语言处理和理解问题的AI系统有几个基准,例如GLUE、SuperGLUE、SNLI和SqUAD。随着Transformer变得越来越大并在更大的数据集上接受训练,它们已经能够逐步改进这些基准。值得注意的是,AI系统在这些基准测试中的表现通常与人类智能进行比较。人类在这些基准上的表现与常识和逻辑推理密切相关。但尚不清楚大型语言模型的改进是由于它们获得了逻辑推理能力,还是由于它们接触了大量文本。为了测试这一点,加州大学洛杉矶分校的研究人员开发了SimpleLogic,这是一类基于命题逻辑的逻辑推理问题。为了确保语言模型的推理能力得到严格测试,研究人员通过使用模板语言构造来消除语言差异。SimpleLogic问题由一组事实、规则、查询和标签组成。事实是已知为“真”的谓词。规则是条件,定义为术语。查询是机器学习模型必须响应的问题。标签是查询的答案,即“真”或“假”。SimpleLogic问题被编译成连续的文本字符串,其中包含语言模型在训练和推理过程中预期的信号和分隔符。SimpleLogic格式的问题SimpleLogic的一个特点是它的问题是独立的,不需要先验知识。这一点尤其重要,因为正如许多科学家所说,当人类交谈时,他们会忽略共享知识。这就是为什么语言模型在被问及人人都知道的基本世界知识的问题时,往往会掉入陷阱。相比之下,SimpleLogic为开发人员提供了解决问题所需的一切。因此,任何研究由SimpleLogic格式提出的问题的开发人员都应该能够推断其规则并能够处理新示例,无论他们的背景知识如何。2.统计特征和逻辑推理研究人员证明了SimpleLogic中的问题空间可以用推理函数表示。研究人员进一步表明,BERT足以解决SimpleLogic中的所有问题,他们可以手动调整机器学习模型的参数来表示推理功能。然而,当他们在SimpleLogic示例数据集上训练BERT时,该模型无法自行学习推理函数。机器学习模型设法在一种数据分布上实现近乎完美的准确性。但它不会推广到同一问题空间内的其他分布。尽管训练数据集涵盖了整个问题空间并且所有分布都来自相同的推理函数,但情况仍然如此。BERTTransformer模型的容量足以代表SimpleLogic的推理能力(注意:这与out-of-distributiongeneralizationchallenge不同,out-of-distributiongeneralizationchallenge适用于开放空间问题。它的性能在datawithin上显着下降。)”之后进一步调查,我们为这个悖论提供了一个解释:仅在分布的测试示例上获得高精度的模型还没有学会推理。实际上,模型已经学会了使用统计特征来对逻辑推理问题进行预测,而不是模仿正确的推理功能。”这一发现突出了将深度学习用于语言任务的一个重要挑战。神经网络非常擅长寻找和拟合统计特征。在某些应用程序中,这可能非常有用。例如,在情感分析中,某些词与情感类别之间存在很强的相关性。然而,对于逻辑推理任务,即使存在统计特征,模型也应该尝试寻找和学习潜在的推理函数。研究人员写道:“当我们试图为涉及逻辑推理和先验知识并表现出语言差异的自然语言处理(NLP)任务端到端地训练神经模型时,应该谨慎行事。”他们强调,SimpleLogic带来的挑战在现实世界中变得更加严峻,因为大型语言模型(LLM)所需的大量信息根本不包含在数据中。研究人员观察到,当他们从训练数据集中删除一个统计特征时,语言模型在同一问题空间的其他分布上的性能得到了提高。然而,问题在于查找和删除多个统计特征说起来容易做起来难。正如研究人员在他们的论文中指出的那样,“此类统计特征可能数量众多且复杂,因此很难从训练数据中删除它们。3.深度学习中的推理不幸的是,逻辑推理的问题并没有随着语言模型变得更大而消失。它只是隐藏在巨大的架构和非常大的训练语料库中。LargeLanguageModels(LLM)可以很好地描述事实和将句子拼接在一起,但是在逻辑推理方面,他们仍然使用统计特征进行推理,这不是一个坚实的基础。此外,没有迹象表明通过向Transformers添加层、参数和注意力头,逻辑推理的差距将被弥合。这篇论文与其他表明神经网络在学习逻辑规则方面的局限性的工作是一致的,例如生命游戏或从视觉数据进行抽象推理。论文重点介绍了当前语言模型面临的主要挑战一。正如加州大学洛杉矶分校的研究人员指出的那样,“一方面,当模型被训练为从数据中学习任务时,它总是倾向于学习推理示例中固有的统计模式;然而,另一方面,逻辑规则从不依赖统计模式进行推理。从数据中学习推理是困难的,因为很难构建不包含统计特征的逻辑推理数据集。》原文链接:https://bdtechtalks.com/2022/06/27/large-language-models-logical-reasoning/