“语言只承载了人类全部知识的一小部分;大多数人类知识和所有动物知识都是非语言的;因此,大型语言模型无法接近人类水平的智能,”这是图灵奖得主YannLeCun对人工智能前景的最新思考。昨日,他与纽约大学博士后JacobBrowning合着的一篇新论文发表在《NOEMA》,引发讨论,作者在文中讨论了目前流行的大规模语言模型,认为它们存在明显的局限性,或许未来AI领域努力的方向应该是让机器优先理解前段时间,前谷歌AI伦理研究员BlakeLemoine声称AI聊天机器人LaMDA拥有和人类一样的意识,让我们看看他们是怎么说的。领域。LaMDA实际上是一个大型语言模型(LLM),旨在预测任何给定文本的下一个可能的单词。由于许多对话在某种程度上是可以预测的,因此这些系统可以推断出如何让它们保持活跃有吸引力的。LaMDA非常擅长这类任务,以至于BlakeLemoine开始怀疑人工智能中是否存在任何“意识”。该领域的研究人员对此事的看法不一:有人嘲笑机器有意识的想法;有人嘲笑机器有意识。有些人认为LaMDA模型可能不会,但下一个模型可能会。还有人指出,机器“骗”人类并不难。人们反应的多样性凸显了一个更深层次的问题:随着LLM变得越来越普遍和强大,我们对这些模型的看法似乎越来越难以达成一致。多年来,这些系统已经超越了许多“常识”语言推理基准,但这些系统在测试时似乎几乎没有常识,甚至容易出现胡说八道和不合逻辑的危险建议。这就引出了一个令人不安的问题:这些系统为何如此智能,但功能却如此有限?其实,最根本的问题不是人工智能,而是语言的局限性。一旦我们放弃了意识与语言之间联系的假设,这些系统就注定只能对世界有肤浅的了解,永远无法接近人类的“完整思维”。简而言之,虽然这些模型已经是地球上最令人印象深刻的人工智能系统,但这些人工智能系统永远不会像我们人类一样聪明。在19世纪和20世纪的大部分时间里,哲学和科学的一个主要主题是知识就是语言。这意味着理解一个事物只需要理解一个句子的内容并将该句子与其他句子联系起来。按照这种逻辑,理想的语言形式应该是逻辑数学,它由通过严格的推理规则连接起来的任意符号组成。哲学家维特根斯坦说:“真命题的总和就是自然科学”。这一立场确立于20世纪,此后引起了很大争议。一些受过高等教育的知识分子仍然认为:“我们所能知道的一切都可以包含在百科全书中,因此只要阅读百科全书就会使我们对一切都有全面的了解。”这种观点也启发了符号AI的许多早期工作,其中符号处理是默认范例。对于这些研究人员来说,人工智能知识由一个由手工逻辑互连的真实句子组成的大型数据库组成,人工智能系统的目标是在正确的时间输出正确的句子,即以适当的方式处理符号。这个概念是图灵测试的基础:如果一台机器“说”了它应该说的一切,就意味着它知道它在说什么,因为知道正确的句子以及何时使用它们使用了前面提到的AI知识。但这种观点受到了严厉批评,有人反驳说,仅仅因为机器谈论某事并不意味着它理解它在说什么。这是因为语言只是知识的高度具体和非常有限的表示。所有语言——无论是编程语言、符号逻辑语言还是日常口语——都支持特定类型的表示模式;它擅长在非常高的抽象层次上表达离散的对象和属性,以及它们之间的关系。但是,所有的表示方案都涉及到对事物信息的压缩,只是压缩后剩下的和剩下的不一样。语言的表示方式可能会漏掉一些特定的信息,例如描述不规则的形状、物体的运动、复杂机构的功能或绘画中细微的笔触等。而一些非语言表示方案可以用一种简单的方式表达这些信息-理解方式,包括符号知识、分布式知识等。语言的局限性理解语言表征模型的局限性,首先要认识到语言传达了多少信息。事实上,语言是一种非常低带宽的信息传递方法,尤其是当孤立的单词或句子在没有上下文的情况下传达很少的信息时。此外,由于大量的同音异义词和代词,许多句子的含义非常模糊。正如乔姆斯基和其他研究人员所指出的:语言不是一种清晰明确的交流工具。但人类不需要完美的交流工具,因为我们共享一个理解非语言的系统。我们对句子的理解往往取决于对句子所处上下文的深刻理解,从而使我们能够推断出语言的含义。我们经常直接谈论眼前的事件,比如一场足球比赛。或者在某些情况下与社会角色交流,比如向服务员点餐。阅读文本段落也是如此——这项任务破坏了AI获得常识的能力,但却是一种流行的教孩子进行上下文无关阅读理解技能的方式。这种方法侧重于使用一般阅读理解策略来理解文本——但研究表明,孩子对某个主题的背景知识量实际上是理解的关键因素。理解句子或段落是否正确取决于对主题的基本掌握。“很明显,这些系统陷入了肤浅的理解,永远无法接近人类思想的全部范围。”单词和句子的内在上下文性质是LLM工作的核心。神经网络通常将知识表示为诀窍,熟练掌握对上下文高度敏感的模式,并概括以精细方式处理输入所必需的规律(具体和抽象),但仅适用于有限的数量的任务。在LLM中,它是关于系统识别现有文本的多个级别的模式,查看单词如何在段落中连接以及句子如何在构成它们的较大段落中连接在一起。结果是模型对语言的把握不可避免地是上下文相关的。每个单词的理解不是根据其字典含义,而是根据其在不同句子中的作用。由于许多词——例如“汽化器”、“菜单”、“调谐”或“电子产品”——几乎只在特定领域中使用,因此即使是带有这些词之一的孤立句子也会带出预测的上下文。简而言之,LLM受过训练以了解每个句子的背景,查看周围的单词和句子以拼凑出正在发生的事情。这使他们能够使用不同句子或短语的无限可能性作为输入,并想出合理的(尽管几乎没有完美的)方式来继续对话或填写文章的其余部分。一个在日常交流中接受过人类书写段落训练的系统应该具备进行高质量对话所必需的一般理解力。肤浅的理解有些人在这个语境中犹豫要不要用“理解”这个词,或者把LLM称为“智能”,现在还不能说语义理解已经说服了任何人。批评者指责这些系统存在某种模仿——这是正确的。这是因为LLM对语言的理解虽然令人印象深刻,但却是肤浅的。这种肤浅的认识感觉很熟悉:教室里到处都是“说话”但不知道自己在说什么的学生——实际上是在模仿他们的教授或他们正在阅读的课文。这只是生活的一部分。我们常常不知道我们知道什么,尤其是当涉及到从语言中获得的知识时。LLM获得了对一切事物的肤浅理解。像GPT-3这样的系统通过屏蔽掉部分句子或预测段落中的下一个单词来训练,迫使机器猜测最有可能填补空白的单词,并纠正错误的猜测。该系统最终变得善于猜测最有可能的词,使自己成为一个有效的预测系统。这导致了一些真正的理解:对于任何问题或谜题,通常只有少数正确答案,但错误答案却无穷无尽。这迫使系统学习特定语言的技能,例如解释笑话、解决文字问题或解决逻辑难题,以便定期预测这些类型问题的正确答案。这些技能和相关知识使机器能够解释复杂事物的工作原理、简化困难的概念、重写和复述故事,并获得许多其他与语言相关的能力。正如SymbolicAI所提出的那样——而不是一个庞大的由逻辑规则链接的句子数据库,机器将知识表示为上下文亮点,以便在给定前一行的情况下提出一个合理的下一个句子。“放弃所有知识都是语言的想法让我们意识到我们有多少知识是非语言的。”但是用语言解释概念的能力与实际使用它的能力不同。系统可以解释如何进行长除法,而实际上它自己并没有这样做,也没有解释与它相矛盾的地方,但仍然很高兴地继续解释。情境知识以一种形式存在——即说口头语言知识的能力——而不是另一种形式——作为如何做事的技能,例如同理心或敏感地处理困难问题。后者的专业知识对语言使用者来说是必不可少的,但它并不能使他们获得语言技能——语言成分不是必需的。这适用于许多概念,甚至是从讲座和书本中学到的概念:虽然科学课确实有讲座部分,但学生的评分主要是根据他们在实验室的工作。尤其是在人文学科之外,能够谈论某事通常不如使事情顺利进行所需的基本技能有用或重要。一旦我们深入挖掘,就很容易看出这些系统实际上有多浅:它们的注意力和记忆力大致相当于一个段落。如果我们正在进行对话,很容易错过这一点,因为我们倾向于只关注最后一两条评论并处理下一条回复。但是,进行更复杂对话的诀窍——积极倾听、回忆和回顾之前的评论、坚持一个话题以表达特定观点同时避免分心等等——需要比机器拥有的更多的关注和关注。记忆。这进一步减少了他们可以理解的类型:很容易通过每隔几分钟改变主题、改变语言或模棱两可来欺骗他们。如果你后退太多,系统将重新开始,将你的新观点与旧评论混为一谈,与你切换聊天语言或相信你所说的一切。形成连贯的世界观所必需的理解远远超出了机器的能力。抛开一切语言之外的知识就是语言的观念,这让我们认识到我们的知识中有相当一部分是非语言的。虽然书籍包含许多我们可以打开和使用的信息,但许多其他物品也是如此:宜家使用说明书甚至懒得在图表旁边写解释性文字,而AI研究人员通常先看论文中的图表,得到掌握网络架构,然后通过浏览文字,旅行者可以沿着地图上的红线或绿线导航到他们想去的地方。这方面的知识超越了简单的图标、图表和地图。人类直接从探索世界中学到了很多东西,向我们展示了物质和人类可以表现和不能表现的东西。物质的结构和人类环境直观地传达了很多信息:门把手在手的高度,锤子的手柄更柔软等。动物和人类的非语言心理模拟很常见,对规划场景很有用,可以用来制造或逆向工程工件。同样,通过模仿社会习俗和仪式,我们可以将各种技能传给下一代,从准备食物和药物到在压力大的时候冷静下来。我们的许多文化知识都是标志性的,或者以精确动作的形式从熟练的从业者传授给学徒。这些微妙的信息模式很难用语言表达和交流,但其他人仍然可以理解。这也是神经网络擅长提取和提炼的上下文信息的确切类型。“一个只接受语言训练的系统永远不会接近人类智能,即使从现在开始训练直到宇宙热寂。”语言很重要,因为它可以用小格式传达大量信息,尤其是在印刷和互联网出现时,它使内容能够被复制和广泛传播。但是压缩语言中的信息并不是免费的:解码密集的段落需要付出很多努力。人文课可能需要大量的课外阅读,而且大部分课堂时间需要花在难以阅读的段落上。建立深刻的理解既费时又费力,但却能提供丰富的信息。这解释了为什么受过语言训练的机器可以知道这么多却什么都不懂——它正在通过一个微小的瓶颈捕获人类知识的一小部分。但这部分人类知识可以涉及任何事物,无论是爱情还是天体物理学。所以它有点像一面镜子:它给人一种深度的错觉,几乎可以反射任何东西,但它只有一厘米厚。如果我们试图探索它的深度,我们就会碰壁。做正确的事不会让机器变得更笨,但它确实表明它们的智能程度存在固有的局限性。一个只接受语言训练的系统永远无法接近人类智能,即使从现在开始训练直到宇宙热寂。这是构建知识体系的错误方式。但如果我们只触及表面,机器似乎肯定更接近人类。在许多情况下,表面就足够了。我们中很少有人真正将图灵测试应用到其他人身上,主动质疑他们的理解深度,并强迫他们做多位数乘法问题。大多数谈话都是闲聊。然而,我们不应将LLM所拥有的肤浅理解与人类通过观察世界的奇迹、探索世界、在其中实践以及与文化和其他人互动而获得的深刻理解相混淆。语言可能是扩展我们对世界的理解的有用组成部分,但语言不会耗尽智力,这一点我们可以从许多物种的行为中理解,例如鸦科动物、章鱼和灵长类动物。相反,要使语言有意义,就必须有深刻的非语言理解。正是因为人类对世界有着深刻的理解,我们才能很快地听懂别人在说什么。这种更广泛的、上下文相关的学习和知识是一种更基本、更古老的知识,它是实体存在感知能力出现的基础,使生存和繁荣成为可能。这也是人工智能研究者在寻找人工智能常识时所关注的比较重要的任务。法学硕士没有稳定的身体或世界可以感知——所以他们的知识更多地以文字开始和结束,而文字总是肤浅的。目标是让AI系统专注于它所谈论的世界,而不是文字本身——但LLM并没有把握其中的区别。这种深刻的理解,单靠文字是无法近似的,这是错误的方向。人类对各种大型语言模型的丰富经验清楚地表明,仅从语音中获得的收益是多么少。
