当前位置: 首页 > 科技观察

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

时间:2023-03-12 22:54:22 科技观察

GaryMarcus:text-to-image系统无法理解世界,距离AGI还很远。自DALL-E2面世以来,许多人认为能够绘制逼真图像的AI是迈向通用人工智能(AGI)的一大步。OpenAI的CEOSamAltman曾在DALL-E2发布时宣称“AGI将要疯狂”,媒体也在夸大这些系统对通用智能进步的意义。但真的如此吗?知名AI学者(也是泼AI冷水的粉丝)GaryMarcus表达了“保留意见”。最近,他建议评估AGI进展的关键在于Dall-E、Imagen、Midjourney和StableDiffusion等系统是否真正了解世界,以便它们能够根据这些知识进行推理和决策。在判断这些系统对AI的影响(狭义和广义)时,我们可以问以下三个问题:图像合成系统能否生成高质量图像?他们能否将语言输入与他们生成的图像联系起来?他们了解所呈现图像背后的世界吗?1AI不理解语言和图像之间的关系关于第一个问题,答案是肯定的。唯一的区别是受过训练的人类艺术家可以更好地利用AI生成图像。关于第二个问题,答案是不确定的。在某些语言输入上,这些系统可以表现良好,例如下图是DALL-E2生成的“马上的宇航员”:但在其他一些语言输入上,这些AI表现不佳且容易被操纵。上当了。例如,Marcus前段时间在推特上指出,这些系统在面对“骑马宇航员”时,很难生成相应的准确图像:虽然深度学习的倡导者展开了猛烈的反击,比如AI研究员JoschaBach认为“Imagen可能只是使用了错误的训练集”,机器学习教授LucaAmbrogioni反驳说,这表明“Imagen已经具有一定程度的常识”,所以他拒绝生成一些荒谬的东西。另一位谷歌科学家BehnamNeyshabur建议,如果“以正确的方式提问”,Imagen可以画出“一匹骑在宇航员身上的马”:然而,Marcus认为,问题的关键不在于系统能否生成图像,聪明的人可以总是想方设法让系统绘制特定的图像,但这些系统对语言和图像之间的关系没有深刻的理解,这是关键。2不知道自行车轮子是什么?怎么能叫AGI呢?系统对语言的理解只是一方面。Marcus指出,最重要的是,判断DALL-E等系统对AGI的贡献最终取决于第三个问题:如果所有的系统都能以惊人的方式将许多句子转化为图像,它们可能会彻底改变人类艺术,但他们仍然不能真正与AGI相提并论,也根本不能代表AGI。让Marcus对这些系统理解世界的能力感到绝望的是最近的一些例子,例如平面设计师IrinaBlok用Imagen生成的“有很多洞的咖啡杯”图像:正常人看到这个图像会认为它违反了常识,咖啡不可能不从洞里漏出来。同理:“方轮自行车”加里·马库斯:文本生成图像系统无法理解世界,离AGI还差得很远“长满仙人掌刺的卫生纸”加里·马库斯:文本生成图像系统无法理解世界,它是离AGI还很远。说“是”比说“不”更容易。谁知道一个不存在的东西应该是什么样子?这就是让AI绘制不可能的地图的困难所在。但也许,系统只是“想”画一个超现实的图像,正如DeepMind研究教授MichaelBronstein所说,他并不认为这是一个糟糕的结果,他会画成这样。那么最终如何解决这个问题呢?加里·马库斯(GaryMarcus)最近在与哲学家戴夫·查默斯(DaveChalmers)的一次谈话中找到了新的灵感。为了了解系统对零件和整体以及功能的认识,GaryMarcus提出了一个任务来更清晰地了解系统的性能是否正确,给定文本提示“画一辆自行车并标记滚动的零件”地面”(画一辆自行车并标记在地面上滚动的部分),以及“画一个梯子并标记你站立的部分之一”。本次测试的特别之处在于,它没有直接给出“画自行车并标记车轮”、“画梯子并标记踏板”等提示,而是要求AI从“滚动部分”开始在地上”。”、“站立部分”来推断相应的东西,这是对AI理解世界能力的考验。但Marcus的测试结果表明,Craiyon(原DALL-Emini)在这种事情上搞砸了,它不会不明白自行车轮子和梯子的梯级是什么:那么这是DALL-EMini特有的东西吗?有什么问题?GaryMarcus发现它不是,同样的结果也出现在最受欢迎的文本StableDiffusion中比如让StableDiffusion“drawapersonandturnthepartofholdingthingspurple”(素描人,把东西放紫色),结果是:手是。在接下来的九次尝试中,只有一次成功(在右上角),而且不是很准确:下一个测试是,“画一辆白色自行车,把你用脚推动的部分变成橙色",获取图像的结果是:soitcan'tunderstand什么是自行车踏板。在画“一辆自行车的草图并标记在地上滚动的部分”的测试中,表现不是很好:如果文字提示有否定词,比如“画一辆没有轮子的白色自行车”,结果如下:这说明系统不理解否定的逻辑关系。即使是像“画一辆带绿色轮子的白色自行车”这样简单的东西,只关注部分-整体关系线索,不呈现复杂的语法或功能等,仍然会产生有问题的结果:因此,马库斯问,一个不一个不了解轮子是什么或它们有什么用的系统可以被认为是人工智能的重大进步吗?今天,GaryMarcus也针对这个问题发出了投票。他问的问题是,“Dall-E和StableDiffusion等系统对它们所描述的世界了解多少?”其中,86.1%的人认为系统对世界的理解不多,只有13.9%的人表示这些系统对世界的理解程度很高。对此,Stability.AI的CEOEmadMostique也回应称我投了“不多”,并承认“它们只是拼图中的一小块。”科学机构NewScience的AlexeyGuzey也有和Marcus相似的发现。他让DALL-E画了一辆自行车,但结果只是一堆自行车元素堆在一起。所以他认为没有什么可以如果能够真正理解自行车是什么以及它是如何工作的模型,那么生成当前几乎可以匹配或替代人类的ML模型将是荒谬的。你怎么看?