当前位置: 首页 > 科技观察

GooglePaLM模型也被门外汉觉醒了?业内人士:理性测试仅比GPT好3%

时间:2023-03-12 11:36:11 科技观察

“通用人工智能”几乎成为2020年代的“水变油”技术,几乎每半个月就会有人宣布发现/某大型模型的确认表现是人类已经觉醒,AI“复活”了。谷歌最近对此类新闻发出的声音最大。众所周知,前研究员BlakeLemoine表示大型语言模型LaMDA“活”了,这位老人如期进入了离职程序。其实几乎同时,还有一篇来自《大西洋月刊》的谷歌准软文说另一种新的大型语言模型PaLM也成为了“真正的通用人工智能”(Itisatrueartificialgeneralintelligence)。《大西洋月刊》强行宣布PaLM成为AGI,但是这篇文章几乎没有人看,所以只有一些讨论和批评。然而,世界级的杂志兜售世界级大厂的手稿,即使没人看,也像老电影台词说的那样,“像黑夜里的萤火虫,那么亮,那么出众……”2022年19日,《大西洋月刊》发表文章《人工意识好无聊》(ArtificialConsciousnessIsBoring)。而《谷歌的PaLM AI比真实意识要奇怪得多》这篇文章的页面标题比试图掩盖的文章标题更直白:《谷歌的PaLM AI比真实意识要奇怪得多》(Google'sPaLMAIIsFarStrangerThanConscious)。不出所料,文中是作者采访谷歌大脑PaLM项目组成员后的各种赞美:5400亿个参数,无需预训练即可完成数百种不同的任务。可以讲笑话并总结和概述文本。如果用户用孟加拉语输入问题,PaLM模型可以用孟加拉语和英语回复。如果用户要求将一段代码从C语言翻译成Python,PaLM模型也可以快速完成。不过这篇文章已经从浮夸的看似软文的采访稿,逐渐变成了一个吹牛翻车的稿子:宣告PaLM模型是“真正的人工智能”(Itisatrueartificialgeneralintelligence).“PaLM的功能吓坏了开发人员,需要冷静和保持距离才能不被吓倒和接受——PaLM是理性的。》(已经上手的功能带领自己的开发者,这需要一定的距离和理智的冷静才能不被吓坏。PaLM可以推理。)这是谷歌第二次有一个大模型被强行宣布为本月AGI。这种说法的依据是什么?根据本文作者的说法,这是因为PaLM模型可以“跳出公式”来解决不同的智能任务,而无需进行预先特定的训练。而且,PaLM模型有“思维链提醒”功能,用大白话来说就是把解题过程拆解、讲解、演示到PaLM模型后,PaLM可以自己得出正确答案,JeffDean自己从来没有说过PaLM是差距AGI噱头与实证之间。。之所以这么说,是因为JeffDean先生带领团队推出PaLM模型时,推出了“思维链提示”功能。但GoogleBrain绝不敢自夸这款产品是一个已经复活的“终结者”。2021年10月,JeffDean亲自撰文介绍了一种全新的机器学习架构——Pathways。目的很简单,就是让一个AI能够跨越数万个任务,理解不同类型的数据,同时以极高的效率实现:2022年3月,半年多后,JeffDean终于发布了Pathways论文。论文地址:https://arxiv.org/abs/2203.12533其中,增加了很多技术细节,比如最基本的系统架构等等。2022年4月,面试谷歌Pathways系统构建的PaLM语言模型。这个拥有5400亿参数的Transformer语言模型,先后打破了很多自然语言处理任务的SOTA。除了使用强大的Pathways系统外,论文介绍,PaLM的训练使用了6144个TPUv4,使用了7800亿个token的高质量数据集,其中22%是非英语和多语言语料库。论文地址:https://arxiv.org/abs/2204.02311“Self-supervisedlearning”和“Thinkingchainreminder”之前在AI界并不是一个陌生的概念,PaLM模型只是更进一步实现概念。更糟糕的是,《大西洋月刊》这篇文章直接说“谷歌研究人员不知道为什么PaLM模型可以实现这个功能”……这是因为JeffDean先生太忙了,找了点事做。批评者:《大西洋月刊》声明不可靠加州圣达菲研究所成员MelanieMitchell教授果然在她的社交网站账户上连续发帖,含蓄但坚定地质疑这篇文章《大西洋月刊》。MelanieMitchell说:“这篇文章很有趣,但我认为作者可能没有采访过Google研究人员以外的AI专业人士。例如,有各种证据表明PaLM模型是“真正的AGI”。我自己并不有使用PaLM的权限,但是在谷歌4月份发布的论文中,只有小样本学习测试在几个benchmark上效果显着,但并不是PaLM的所有小样本学习测试结果都同样稳健。测试,有多少使用了“Shortcutlearning”这种简化难度的技术,论文中没有提到。按照《大西洋月刊》文章的措辞,PaLM至少可以以高可靠性、高通用性和一般精度完成各种任务。不过无论是这篇文章还是谷歌4月份的论文都没有详细描述PaLM模型在通用智能方面的能力和局限性,也没有提到测试这种能力的基准。而PaLM的“合理性”主张尤其需要验证。GPT系列中的类似说法,由于其访问权限的公开性,被业内人士对其进行了各种实验证伪。如果PaLM要获得这样的荣誉,它应该接受同样程度的对抗性验证。另外,根据谷歌四月份的论文Confessionally,PaLM的理性基准测试比业内几个类似的SOTA模型好一点点,赢的并不多。最重要的一点是,PaLM的论文没有经过同行评审,模型不对外开放任何访问。所有说法仅算吹口哨,不可考证,不可复制,不可评价。”