当前位置: 首页 > 科技观察

谷歌等揭秘“AI难题”:有局限性的ImageNet等基准就像博物馆一样无法代表“整个世界”

时间:2023-03-21 00:16:20 科技观察

在日常生活中,我们需要一些“标准”来衡量个体的行为。在科学研究中,研究人员也需要一些“基准”来评估模型的性能。因此,无论是通用的“标准”,还是具体的“基准”,都具有一定的参考意义。然而,如果有一天我们发现这些“参照物”正在远离现实生活,它们又该何去何从呢?近日,加州大学伯克利分校、华盛顿大学和谷歌研究院合着的一篇论文《AI and the Everything in the Whole Wide World Benchmark》指出了ImageNet等基准定义的模糊任务在促进智能理解方面的局限性,就像用一个有限的博物馆来代表整个世界。论文地址:https://openreview.net/pdf?id=j6NxpQbREA1在这篇论文中,研究人员说明了机器学习(ML)对通用任务框架(CTF)的过度依赖,因为该框架已不恰当地演变为这些据称评估我们今天所理解的“通用能力”基准。值得注意的是,研究团队并不否认这些基准的有用性,但希望指出将它们用作框架的固有缺陷。1.展示“整个世界”的博物馆VSImageNet这篇论文最能引起共鸣的地方是用故事书作为引子,情节贯穿全文,让论文的研究内容更加直白易懂理解。这本书是《Grover and the Everything In the Whole Wide World Museum》,出版于1974年。书中的主人公格罗弗参观了一座号称展示“整个世界”的博物馆。博物馆的每个展厅都展示不同的类别,其中一些是任意的和主观的,例如“你在墙上找到的东西”和“一个让你发痒的房间”。TheThingsthatCanTickleYouRoom”;有些类别非常具体,例如“胡萝卜屋”,而另一些类别则很模糊,例如“高大的大厅”。当格罗弗认为他已经看过博物馆里的一切时,他来到写着“EverythingElse”的门。打开门后,我发现自己在外面的世界。作为一个儿童故事,格罗弗的经历是荒谬的。但是,类似的先天错误逻辑在实际研究中存在,例如人工智能领域尤其是ML,其中许多流行的基准测试都依赖于固有的错误假设。该论文的研究人员认为,在“视觉理解”或“语言理解”等模糊任务中,作为衡量一般能力进步的基准,在代表“整个世界的一切”方面与有限的博物馆一样无效,以及原因因为这两个谬误是相似的,也就是说,它们本质上都是基于特定的、有限的和受上下文限制的情况。像GLUE或ImageNet这样的基准通常被提议作为基本通用任务的定义,以验证任何给定模型的性能。因此,这些基准数据集所证明的结论往往远远超出了它们最初设计的任务,甚至超出了最初的开发目标。尽管作为朝着“普遍目标”取得进展的标志,这些基准具有明显的局限性。事实上,这些基准的开发、使用和采用表明了结构有效性问题,其中所涉及的基准——由于它们在特定数据、指标和实践中的实例化——不太可能捕获任何关于其普遍适用性结论的代表性信息.作者认为,衡量一般能力的目标(即一般对象识别、一般语言理解或领域无关推理等目标)在数据定义的基准中没有得到充分体现。研究人员指出,当前的趋势不适当地扩展了CTF范式,将其应用于与现实世界目标或上下文不同的抽象表示任务。从历史上看,CTF的开发正是为了引入面向实践且范围严格的AI任务,即自动语音识别(ASR)或机器翻译(MT),其中所需的验证是基准是否准确反映了现实环境中所需的实际任务.这一波定义不明确的“通用”目标完全颠覆了它们引入的意图。与其将格罗弗的经历当成童话,不如说这是一则寓言故事。当格罗弗打开通往“别的东西”的大门时,他发现自己身处博物馆外的广阔世界。故事的结尾可能已经预示了这项研究的结论,即ImageNet等基准定义一定不能代表适用于所有现实世界模糊任务的“通用目标”。因此,本文确实有很多值得讨论和思考的地方。ImageNet有缺陷,那么其他基准定义是否完美无缺?除了ImageNet,一般物体识别还有更好的参考吗?如何看待和解决基准定义越来越“非基准”的问题?外行看热闹,内行看门道。这样的头痛应该留给专业人士吧。2、OpenReview官方是怎么评论的?第一位法官来找我们,他针对CV和NLP中的“通用”整体基准发布了令人信服的论据!(Acompellingargumentagainst"general"monolithicbenchmarksinvisionandNLP)",因为他认为这篇论文具有详细的历史资料、清晰的观点和到位的分析。论文的研究人员首先列出了很多背景论文中的知识,向读者展示了通用人工智能和基准测试的相关研究,并分析了ML基准测试何时开始作为一种标准化方法来评估狭窄范围任务的性能。最后,结论落到实处:基准测试对于通用语言理解和通用对象识别,它们存在先天缺陷,因为它们适用范围较窄。最后,这位法官真诚地希望计算机视觉和NLP社区能够认真对待这篇论文,因为他认为这篇论文做出了为在这两个领域取得更有意义的进展做出有价值的贡献,而不仅仅是追求最好的结果。先进的技术。B但美中不足的是,既然发现了ImageNetbenchmark的局限性,那么有没有办法减少对这些通用标准的过度依赖呢?看来论文的研究人员还没有找到这个问题的答案。第二位评委对这篇论文的评价是:通用人工智能基准测试的谬误(TheFallacyofBenchmarksforGeneralArtificialIntelligence)。由于本文的读者主要是AI领域的研究人员,作者在上一篇文章中回顾了通用AI的相关benchmark,拉近了与读者的距离。此外,引用Grover的故事会使这篇论文变得有趣且易于理解。尽管本文开头在表达上有问题,不能无缝衔接主题,但瑕不掩瑜。2号评委高度评价这篇论文,为ML领域的研究指明了方向。接着,3号评委也来了他的观点:好论文!但最好改变结构(有争议的论文,建议进行一些重组)。法官指出,这篇论文最大的亮点是观点独特,论证充分。但也发出了与第一评委相同的疑惑:那么,有哪些解决方案可以减少对共同标准的过度依赖?与前三位评委的“大度”不同,第四位评委只给了5分的评价,认为这篇论文只是:abriefhistoryofthecurrentbenchmarks(Historyofthebenchmarksweusetoday)。从这个评论中不难看出,审稿人觉得论文列出了很多benchmarks,并强调了它们的局限性,但作者团队不表态。结果五号法官没有看到他,却先听到了他的声音:太好了!但仍有改进的空间(很好,但需要改进)。第五评委认为本文对相关工作进行了很好的梳理和总结,有大量的研究支持本文的论点。希望本文能引起相关领域研究人员的重视。由于对这篇论文寄予了极高的期望,评委们只给了6分的评价,同时列出了非常详细的修改建议,希望论文作者能够改进。3.Reddit网友的评价看了五位大审稿人的官方评论,基本可以总结为:论文不错,观点新颖,论证充分。如果能提出解决方案就更好了。此外,三位评委都希望这篇论文能够引起相关领域的关注。关于这篇文章在Reddit上的讨论度不小,我们来看看大佬们是怎么说的。有网友一针见血地指出,虽然ImageNet等基准测试存在“博物馆有限”等缺点,但它们是目前我们训练模型最有力的工具。的确,正如上述评委所说,ImageNet存在局限性,但是有没有更好的解决方案呢?因此,有热心网友为论文作者修改了摘要:没有一个数据集可以捕捉到所有细节的全部复杂性,就像没有一个博物馆可以容纳整个世界的所有事物一样。有网友认为论文不错,尤其是《芝麻街》故事情节的插入,加深了对论文的理解。这些网友觉得用“不能展示一切的博物馆”来类比“ImageNet在一些模糊任务上的局限性”是非常恰当的。大概是论文的作者没想到,写一篇文章也能为一本书背书。有网友调侃:宇宙万物的答案就藏在这本《芝麻街》故事书中。更多网友认同笔者的观点。毕竟,与解决问题相比,发现问题太容易了。(狗头)那么,解决办法在哪里呢?即使博物馆“不能展示一切”,也没有人可以否认它的价值。同样,ImageNet等基准定义的存在意义也不容置疑。只有不断发现和解决问题,历史的车轮才会滚滚向前(狗头)。