当前位置: 首页 > 科技观察

考试那么多,分数那么高,大模特们真的懂语言吗?_0

时间:2023-03-22 17:05:12 科技观察

十年前,当IBM宣称“Watson理解自然语言的所有歧义和复杂性”时,IBM的Watson赢得了猜谜节目《Jeopardy!》。然而,正如我们所看到的,沃森随后试图“用人工智能革新医学”的过程失败了。智能体所拥有的语言能力与人类对语言的实际理解不能完全划等号。自然语言理解一直是人工智能研究的主要目标之一。起初,研究人员试图对机器进行手动编程,以理解新闻故事、小说或人类可能创作的任何其他内容。事实证明,像沃森一样,这种做法是徒劳的,人们不可能概括理解文本所需的所有事实、规则和假设。近年来,人工智能领域建立了一种新范式:我们让机器学习自己理解语言,而不是构建显性知识——摄取大量书面文本并学习预测单词。这种新范式现在被称为语言模型,基于GPT-3等大型神经网络的模型可以生成令人难以置信的人类散文和诗歌,并可以进行复杂的语言推理。但是,像GPT-3这样经过大量网络文本训练的模型真的比Watson好吗?它真的理解它生成的语言和推理吗?这是AI研究界分化明显的话题。这样的讨论曾经是哲学领域,但在过去的十年里,人工智能已经冲破学术泡沫,进入现实世界,他们对现实世界缺乏了解会产生非常严重的后果。一项研究发现,IBM的Watson提出了“不安全和不正确的治疗建议”。另一项研究:谷歌的机器翻译系统在为非英语患者翻译医疗说明时犯了重大错误。那么我们如何确定一台机器是否能够理解现实呢?1950年,计算机科学先驱艾伦图灵试图用“图灵测试”来回答这个问题。然而,图灵低估了人类被机器愚弄的可能性。回到1960年代,JosephWeizenbaum构建了Eliza,一个简单的聊天机器人,试图通过解释句子让Eliza像心理治疗师一样说话。事实证明,Eliza可以让人们相信他们正在与理解他们的人交谈,即使他们知道他们正在与机器交谈。在2012年的一篇论文中,计算机科学家HectorLevesque、ErnestDavis和LeoraMorgenstern提出了一个更客观的测试——WinogradSchema挑战。这种测试方法已经被AI语言社区采用,是目前评估机器理解能力的最佳方法之一。Winograd模式挑战由一对仅相差一个词的句子组成,每个句子后跟一个问题,例如:句子1:我将水从瓶子里倒进杯子里,直到它满了。问题:什么东西是满的,瓶子还是杯子?句子2:我把瓶子里的水倒进杯子里,直到杯子倒空。问题:什么是空的,瓶子还是杯子?句子1:乔的叔叔仍然可以在网球上打败他,尽管他已经30岁了。问题:谁大,乔还是乔的叔叔?句子2:乔的叔叔仍然可以在网球上打败他,尽管他年轻了30岁。问题:乔和乔的叔叔谁小?以2016年的Winograd模式为题进行了一场比赛,获胜的程序只对58%的句子给出了正确答案,几乎和简单的猜测一样准确。句子中的单个单词差异可能会改变代词所指的人或内容,正确回答这些问题需要常识性理解。Winograd模式正是为了测试这种理解而设计的,减轻了图灵测试对人类判断和聊天机器人技能的不可靠性。特别是,Winograd的作者设计了数百种称为“谷歌证明”的模式:机器不应使用谷歌搜索(或类似搜索)来正确回答问题。然而,大型神经网络语言模型的出现迅速提高了AI程序解决Winograd模式的能力。OpenAI2020年的一篇论文声称GPT-3在Winograd模式基准集中近90%的句子上是正确的。当专门针对这些任务进行训练时,语言模型的表现会更好。一些神经网络甚至可以在某些任务上达到97%的准确率,这与人类的表现大致相当。这是否意味着神经网络语言模型已经达到了人类理解的水平?并不真地。尽管创作者尽了最大努力,但Winograd模式实际上并不完全“谷歌证明”。与许多其他AI语言理解测试一样,Winograd模式中的挑战有时会允许走捷径,让神经网络在不理解的情况下也能表现良好。例子:跑车超过了邮车,因为它跑得更快。跑车超过了邮车,因为它开得慢了。在庞大的语料库上训练的语言模型会吸收“跑车”和“快”之间以及“邮车”和“慢”之间的相关性,因此语言模型仅根据这些相关性就可以正确回答这些问题,没有真正的理解。事实证明,SuperGLUE竞赛中的许多Winograd模式都可以使用这种类型的统计相关性。艾伦人工智能研究所的一组研究人员试图解决Winograd模型存在的一些问题。2019年,他们创造了更大的Winograd模式——WinoGrande。WinoGrande包含多达44000个句子而不是数百个示例。这些句子是使用AmazonMechanicalTurk平台获得的,并由真人编写——每个人都被要求写几对涵盖多个主题的句子,但每对句子可能相差不止一个词。然后,研究人员通过使用相对简单的AI方法测试每个句子来消除可能允许捷径获得统计相关性的句子,从而丢弃太容易解决的句子。正如研究人员所预料的那样,剩余的句子对机器提出了比原始Winograd模式更困难的挑战,在这种模式下,与人类表现相当的神经网络语言模型在WinoGrande集成上的得分要低得多。然而,很快又一个惊喜接踵而至。在WinoGrandeensemble出来的两年里,神经网络语言模型变得越来越大。此外,模型越大,他们似乎在这个新挑战中得分就越高。在撰写本文时,当前最好的模型(在数TB的数据和数千个WinoGrande实例上训练)的准确率接近90%(人类为94%)。这种性能提升几乎全部来自于神经网络语言模型规模的增加和训练数据量的增加。这些大型模型是否真的获得了类似人类的常识性理解?它似乎不是。WinoGrande反映的结果有几个警告。例如,由于那些句子依赖于AmazonMechanicalTurk平台上的自由职业者,所以句子的质量和流畅度非常参差不齐。同时,用于剔除“非谷歌证明”句子的AI方法可能过于简单,无法发现大型神经网络可能使用的所有统计捷径。而且,这种方法只适用于单个句子,许多句子最终都失去了它们的“双胞胎”兄弟姐妹。一项后续研究表明,神经网络语言模型仅在两个“双胞胎”句子上进行测试,并且在两个测试中均正确,其准确性远低于人类,这表明更早的90%结果并不那么重要。那么我们可以从Winograd的失败中吸取什么教训呢?就是这样:通常很难从人工智能系统在特定挑战中的表现判断它是否真的理解它正在处理的语言。我们知道,神经网络经常使用统计捷径来获得高分,而不是像人类那样真正理解。在我看来,关键在于理解语言需要理解世界,而仅接触语言的机器无法获得这种理解。比如“跑车超过邮车是因为它开得慢”,理解这句话需要什么前提条件?首先,你需要知道什么是跑车和邮车,汽车是可以相互“超车”的,甚至你还需要知道更基本的常识:车辆是存在于世界中并与世界互动的物体,由人类根据自己的时间表驱动。以上都是我们人类习以为常的知识,但这些知识并没有嵌入到机器中,也无法明确地写在任何语言模型的训练文本中。一些认知科学家认为,在学习和理解语言时,人类依赖于关于时空和世界其他基本属性的先天的、前语言学的核心知识。如果我们想让机器像人类一样掌握语言,我们首先需要赋予它们人类与生俱来的原始原则。要评估一台机器的理解能力,我们应该首先评估他们对上述原则的掌握程度,有人称之为“婴儿形而上学”。与GPT-3等出色完成的AI系统相比,训练和评估婴儿级别的机器似乎是一个巨大的倒退。但如果目标是真正的理解,那么这可能是机器理解“它”是什么,并获得理解“它”所需的一切的唯一途径。原文链接:https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/【本文为《机器之心》专栏原文翻译,微信公众号《机器之心(id:almosthuman2014)》]点此查看本作者更多好文