当前位置: 首页 > 科技观察

零样本学习超越了CLIP!谷歌提出首个多模态稀疏模型LIMoE,同样可以降低计算成本

时间:2023-03-20 20:17:24 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。多模态模型很常见,但基于稀疏化的模型是第一种。谷歌带来了最新成果LIMoE,首次将稀疏方法用于图文混合模型。要知道,随着大模型的参数呈指数级增长,训练成本也随之飙升。因此,如何降低培训成本成为学术界关注的一大问题。谷歌想到的办法不是拼硬件,而是从模型本身入手。使用稀疏的方法,每个输入只需要激活网络的一部分就可以完成任务。他们在模型内部设置了很多“专家”,每个“专家”只需要处理输入的相应部分,根据任务情况按需使用“专家”。这样,尽管模型容量很大,但计算成本并没有暴涨。并且不影响性能。在新方法LIMoE零样本学习任务中,直接超越了CLIP。难怪网友大呼:快把API分享给我们!让不同的“专家”处理不同的任务对于深度学习,能够同时处理文本和图像任务的情况并不少见。然而,在以往常见的多模态学习方法中,往往需要单个输入激活整个网络。谷歌这次提出的新方法最大的亮点是在该领域首次使用了稀疏模型。稀疏化的方法是不必让整个模型处理所有的输入。通过对神经网络进行划分,使得神经网络“专业对口”,不同的子模型只处理固定类型的任务或数据。但并不是完全分离,模型内部还是有可共享的部分。这个时候建立的模型就是MoE(Mixture-of-Expertslayer),称为专家混合模型。即在Transformer架构的基础上,增加了一个“专家层”。它是一个并行的FNN,取代了原来的前馈网络。这里的“专家”是模型中的不同子模型。每个子模型专门用于不同的输入。每一层的专家都由门控网络控制,门控网络根据输入数据激活专家。对于每个标记,门控网络选择最合适的专家来处理数据。新提出的LIMoE实际上是让MoE同时处理图像文本。具体来说就是让LIMoE进行比较学习。当使用大量图像-文本对进行训练时,网络内部的图像模型提取图像表示,文本模型提取文本表示。对于相同的图像文本对,模型关闭图像和文本表示。相反,对于不同的图像-文本对,相应的表示会彼此远离。这样做的直接好处是可以实现零样本学习。例如,如果图像的表示更接近文本“狗”的表示,那么它将被归类为狗。这种思路可以扩展到数千种情况。事实上,CLIP和ALIGAN都采用了这种思想,它们在ImageNet数据集上的准确率分别为76.2%和76.4%。而LIMoE-L/16可以达到78.6%,已经超过了CLIP。无需预训练的LIMoEH/14可以达到84.1%的准确率。在LIMoE的专家层,Google表示也发现了一些有趣的现象。例如,在训练设置中,图像标签比文本标签多得多,因此所有专家都会在任务中处理一些图像。只是有些主要处理图像,有些主要处理文本,或者两者兼而有之。此外,在大多数情况下,所有包含文本表示的图像块都会有一位专家。除了性能提升之外,使用稀疏模型的好处还体现在计算成本的降低上。因为“多专家”模式意味着虽然建立了很多子模型,模型容量显着增加,但实际计算成本并没有显着变化。如果在一项任务中只使用一个子模型,其成本与标准Transformer的成本大致相同。例如,LIMoE-H/14总共有5.6B个参数,但通过稀疏化,它只会使用每个token的675M个参数。OneMoreThing稀疏模型一直是Google深入研究的一个方向,提出了包括MoE、GLaM在内的多个模型。这次LIMoE并不是Google第一次修改MoE。去年6月他们提出了V-MoE,这是一种新型的视觉架构,今年已经全部代码开源。