当前位置: 首页 > 科技观察

研究遭质疑,Jeff Dean回应:我们本就不是为得到新SOTA,成本计算也搞错了

时间:2023-03-17 21:39:40 科技观察

研究受到质疑,JeffDean回应:我们并没有打算拿到新的SOTA,成本计算也有误。JeffDean参与了论文的挑战。论文《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》已于周四提交至预印本论文平台arXiv。在论文中,JeffDean等人。提出了一种进化算法,可以生成大规模多任务模型,同时还支持动态和连续添加新任务。生成的多任务模型被稀疏激活并集成了基于任务的路由。新方法在69项图像分类任务上取得了具有竞争力的结果,例如,仅在公共数据上训练的模型在CIFAR-10上的识别准确率达到了99.43%,达到行业最佳水平。正是这个在CIFAR-10上实现的新SOTA受到了挑战,之前的SOTA是99.40。她说,“产生这个结果总共花费了17,810个TPU核心小时,如果你不在谷歌工作,那意味着你必须使用3.22美元/小时的按需付款,而训练好的模型成本为57,348美元。”于是,她问自己的灵魂,“JeffDean花了足够养活一家四口五年的钱,获得了CIFAR-100.03%的提升,创造了一个新的SOTA,这一切值得吗?”这个问题得到了很多领域人士的呼应。甚至有研究人员悲观地表示,“我对深度学习几乎失去了兴趣,作为一个小实验室的从业者,在计算预算上基本无法与科技巨头相提并论。即使你有再好的理论想法,主流环境也可能存在偏见,难以见天日。这造成了不公平的竞争环境。”随着话题的持续发酵,JeffDean亲自在reddit上进行了回应。他说,“我们研究的目标不是得到更高质量的cifar10模型,原帖作者的成本计算方法有问题。”JeffDean对本文全文做出了回应。这篇论文是由我和AndreaGesmundo完成的,其中AndreaGesmundo完成了论文的大部分工作。论文地址:https://arxiv.org/pdf/2205.12755.pdf我想说的是,这项研究的目标并不是得到一个高质量的cifar10模型。相反,这项研究探索了一种设置,在这种情况下,可以将新任务动态地引入到正在运行的系统中,并成功地为新任务获得高质量的模型,该模型重用现有模型的表示并稀疏地引入新参数,同时避免多任务系统的问题,例如灾难性遗忘或负迁移。本研究中的实验表明,我们可以从几个独立的可视化任务基准中动态引入69个不同的任务流,从而形成一个可以为所有这些任务共同生成高质量解决方案的多任务系统。生成的模型对任何给定任务都有稀疏激活,系统为新任务引入的新参数越来越少(见下图2)。多任务系统在此任务流末尾为增量任务仅引入1.4%的新参数,每个任务平均激活模型总参数的2.3%。任务之间存在相当大的表示共享,进化过程有助于确定何时有意义以及何时应为新任务引入新的可训练参数。我也认为原帖作者对成本计算有误,实验是训练多任务模型共同解决69个任务,而不是训练cifar10模型。从下面的表7中可以看出,所使用的计算是TPUv3内核和TPUv4内核的混合,因此不能简单地计算内核小时数,因为它们的定价不同。除非你有特别紧急的任务,需要快速训练cifar10+68的任务,其实这种研究很容易使用抢占价格的资源,即$0.97/hourTPUv4,$0.60/hourTPUv3(不是他们说的你必须按需支付3.22美元/小时)。在这些假设下,表7中描述的计算公共云成本约为13,960美元(使用12,861TPUv4芯片小时和2,474.5TPUv3芯片小时的抢占价格),或约202美元/任务。我认为拥有稀疏激活的模型很重要,并且能够动态地将新任务引入现有系统,这些系统可以共享表示(在适当的情况下)并避免灾难性遗忘,这些至少值得探索。该系统还有一个优势,即新任务可以自动纳入系统,而无需为其专门制定(进化搜索过程就是这样做的),这似乎是持续学习系统的一个有用特性。本文代码是开源的,大家可以自行查看。代码地址:https://github.com/google-research/google-research/tree/master/muNet原帖作者回复JeffDean看到JeffDean的回复后,原帖作者表示:澄清一下,我觉得JeffThispaperbyDean(EvolutionaryPatternsUsedtoGenerateModelAugmentationinEachTask)真的很有趣,让我想起了另一篇论文,但是我记不起标题了,这篇论文是关于每一个新任务,添加将新模块添加到整体架构中,将其他模块的隐藏状态作为每一层输入的一部分,但不更新现有组件的权重。我也有在每个任务的模型中构建模块的想法。你知道小鹿是如何在出生后几分钟内就能走路的吗?相比之下,当时新生的小鹿几乎没有“训练数据”来学习感知运动或模拟世界,而是必须利用大脑中必须遗传的特殊结构才能让小鹿学会感知运动或模拟世界。具备基本功。这些结构将非常有用,因此从某种意义上说,它会很快泛化到一个新的但相关的控制任务。因此,这篇论文让我思考开发那些可以用来更有效地学习新任务的已经存在的可继承结构。另一个实验室的研究人员可能有相同的想法,但得到的结果要差得多,因为他们无力从现有设置迁移到大型云平台。此外,由于社区目前过度关注SOTA结果,他们的研究无法发表。尽管每个任务“仅”花费202美元,但还是需要多次迭代才能把事情做好。因此,对于我们这些无法获得足够计算预算的人来说,我们基本上有两种选择。一是祈祷,希望谷歌将现有的模型公开分发,然后我们可以根据自己的需要进行微调。但事实证明,模型可能已经学会了我们无法消除的偏见或对抗性弱点。二是什么都不做,平躺。所以,我的问题不仅仅是关于这项研究。如果OpenAI想在GPT-4上花费exabytes(例如),请给它更多的权力。这是一种过度奖励浮华、大笔资金和奢侈浪费的科学和出版文化,而不是帮助人们更好地完成实际工作。我最喜欢的论文是vanderOord在2019年发表的《Representation Learning with Contrastive Predictive Coding》,它使用无监督的预训练任务,然后对一小部分标签进行监督训练,以实现复制标记所有数据的准确性结果,并从数据效率的角度讨论这种提升.我在工作中复制并使用了这些结果,节省了时间和金钱。基于这篇论文,我愿意成为他的博士生。然而,OpenAI在论文中提出了更大的Transformer模型GPT-3,获得了近4000次引用,获得了NeurIPS2020最佳论文奖,受到了全媒体的关注。