JeffDean的大规模多任务学习SOTA被吐槽，又花了6万美元重现

时间：2023-03-14 17:09:18 科技观察

2021年10月，JeffDean亲自写了一篇文章，介绍一种全新的机器学习架构——Pathways。目的很简单，就是让一个AI能够跨越数万个任务，理解不同类型的数据，同时以极高的效率实现：2022年3月，半年多后，JeffDean终于发布了Pathways论文。论文链接：https://arxiv.org/abs/2203.12533其中，增加了很多技术细节，比如最基本的系统架构等等。2022年4月，谷歌Pathways的PaLM语言模型横空出世，接连打破了众多自然语言处理任务的SOTA。这个拥有5400亿参数的Transformer语言模型再次证明了“实力创造奇迹”。除了使用强大的Pathways系统外，论文介绍，PaLM的训练使用了6144个TPUv4，使用了7800亿个token的高质量数据集，以及一定比例的非英语多语言语料库。论文地址：https://arxiv.org/abs/2204.02311最近，JeffDean的一篇新作引发了对Pathways的猜测。Pathways拼图的另一块？这篇论文只有两位作者：大名鼎鼎的JeffDean和来自意大利的工程师AndreaGesmundo。有趣的是，不仅Gesmundo非常低调，就连前两天刚刚玩完自己Imagen的JeffDean，在推特上也完全没有提及。有网友看完后猜测，这可能是下一代AI架构Pathways的一部分。论文地址：https://arxiv.org/abs/2205.12755这篇论文的思路是这样的：通过将新的任务动态地合并到一个大规模的操作系统中，可以将稀疏多任务机器学习模型的碎片化用于实现新任务的质量。改进，并可以在相关任务之间自动共享模型的各个部分。这种方法在收敛时间、训练实例数、能量消耗等方面提高了每个任务的质量，提高了模型效率。本文提出的机器学习问题框架可以看作是标准多任务的泛化和综合和持续学习形式化。在此框架下，甚至可以联合解决大型任务集。此外，随着时间的推移，可以通过添加连续的新任务流来扩展任务集。预训练任务和下游任务之间的区别也不存在。因为，随着新任务的添加，系统会寻找如何将现有知识和表示与新模型功能相结合，以实现每个新任务的高水平高质量。在解决新任务时获得的知识和学习表示也可以用于任何未来的任务，或继续学习现有任务。这种方法称为突变多任务网络或μ2Net。(μ=Mutation)大规模连续学习实验中使用的两类变异模型，简单来说就是生成一个大规模的多任务网络，共同解决多个任务。不仅提高了每个任务的质量和效率，还可以通过动态添加新任务来扩展模型。通过先前任务的学习嵌入到系统中的知识积累得越多，后续任务的解决方案质量就越高。而且，通过减少每个任务新增的参数，可以不断提高新任务的求解效率。生成的多任务模型是稀疏激活的，模型集成了基于任务的路由机制。随着模型的扩展，可以保证每个任务的计算成本的上升是有界的。每个任务激活和增加的参数占多任务系统中参数总数的百分比从每个任务中学到的知识被分成多个部分，可以被多个任务重用。实验表明，这种分块技术避免了多任务和持续学习模型的常见问题，例如灾难性遗忘、梯度扰动和负迁移。任务路线空间的探索和每项任务最相关的先验知识子集的识别由进化算法指导，该算法旨在动态调整探索/开发的平衡，而无需手动调整元参数。相同的进化逻辑用于动态调整多任务模型组件的超参数。既然叫“变异网络”，那么这个变异又是如何解释的呢？深度神经网络通常由架构和超参数定义。本文中的架构由一系列神经网络层组成。每个层将一个输入向量映射到一个可变维度的输出向量，网络实例化的细节，例如优化器的配置或数据预处理，由超参数决定。所以这里说的突变也分为两类，层克隆突变和超参数突变。层克隆突变创建可以由子模型训练的任何父模型层的副本。如果未选择父模型的一层进行克隆，则当前状态将被冻结并与子模型共享，以保持现有模型的不变性。超参数变异用于修改子层从父层继承的配置。可以从一组有效值中得出每个超参数的新值。对于数字超参数，有效值的集合被排序为一个列表，采样被限制在相邻的值以应用增量变化约束。来看看它是如何工作的：在ImageNet2012、cifar100、cifar10这三个数据集上，μ2Net在5次任务迭代和10次任务迭代后的性能超过了目前最通用、性能最好的ViT预训练微调模型。在任务扩展方面，加入VTAB-full和VDD连续学习任务后，μ2Net的性能得到了进一步提升，VDD连续学习任务在cifar10数据集上的性能达到了99.43%的最好成绩。在多任务字符分类基准任务上，经过两次任务迭代，μ2Net在大部分数据集上刷新了SOTA级别，数据集规模从2.5k到240k样本量不等。简单来说，在这种架构下，模型学习的任务越多，系统学习的知识就越多，解决新任务就越容易。例如，一个ViT-L架构（3.07亿个参数）可以演化为一个具有1308.7亿个参数的多任务系统，解决69个任务。此外，随着系统的增长，参数激活的稀疏性使每个任务的计算和内存使用保持不变。实验表明，每个任务的参数平均增加减少了38%，而多任务系统只激活了每个任务总参数的2.3%。当然，此时它只是一个架构和一个初步的实验。网友：论文很好，但是……虽然论文很棒，但是好像有些人不买账。有爱戳穿皇帝新衣的网友在reddit上发帖称，他已经不相信爱情了……哦不，是“顶级实验室/研究机构”出品的AI论文。ID为“Mr.Acurite”的网友表示，他自然相信这些论文中的数据和模型结果。但是，让我们以JeffDean的这篇论文为例。这篇长达18页的论文讨论了一种特别复杂的进化卷积和多任务学习算法。不过有两点不得不提一下：第一，JeffDeans在论文中提出的证明自己优于竞品的跑分结果是CIFAR-10基准测试准确率99.43，优于现在的SOTA的99.40……不能说这是忽悠，但是真的是难以形容。二、论文最后使用TPU运行算法得到最终结果的耗时表，共计17810小时。假设一个不在谷歌工作的人想复现论文结果，以每小时3.22美元的市场价格租用TPU再次运行，成本为57,348美元。重点是什么？连日报都需要有经济能力的门槛吗？当然，这种行为现在已经成为行业趋势，包括但不限于谷歌、OpenAI等大佬。大家少往模型里灌注改进现状的想法，多一些预处理的数据和benchmarks。那么，只要跑分成绩比对方高出一个百分点甚至小数点后两位，研究者就可以名正言顺地在简历中加一行论文题目了！这样做，对学术界和工业界有什么真正的推动作用？普通的研究生没法花钱去验证你的结论，普通的公司也不可能在项目中使用这么无聊的跑分。还是那句话，什么意思？这是人工智能世界中可以接受的舒适区吗？一小撮大公司，偶尔的学霸，天天吹嘘我有钱可以为所欲为，你没钱还得跟在后面？继续这么玩下去，我们还不如另起一个计算机科学杂志，只接受那些在消费级单机显卡上可以八小时复现结果的论文。跟帖中，有论文任务的研究生纷纷吐槽。一位ID为“SupportVectorMachine”的网友说，他是一个小实验室的从业者。因为这种势头，他几乎完全失去了继续从事深度学习的动力。因为靠着自己实验室的预算，根本无法和这些巨无霸相比，也拿不出底线的跑分。即使你有新的理论想法，也很难写出一篇能通过评审的论文。因为在审稿人中，大公司的赚钱能力养成了“美图偏见”。论文里测试用的图片不好看，什么都没有用。并不是说巨无霸无用。GPT和DALL-E等项目确实具有开创性。但是如果我自己的机器不能运行，我为什么要兴奋。另一位博士生网友站出来对支持向量机进行了点评。博士生两年前提交了一篇关于流模型的论文，主要关注发现可采样数据的潜在空间，对模型的图像生成质量没有影响。结果，论文评分者给出的批评是：“生成的图像看起来不如GAN生成的图像好”。另一位ID为“Uday”的研究生也表示，对他提交的2021年会议论文的批评是：“数据不够花哨”。中外道教不绝于世之势。不过，河东30年，河西30年，也许草根算法和全民资本化会带来车库创业公司击败IBM的第二个奇迹。

上一篇：《正则》探索正则匹配的魅力

下一篇：2019年跑步机器人会变慢吗？

JeffDean的大规模多任务学习SOTA被吐槽，又花了6万美元重现相关文章