当前位置: 首页 > 科技观察

仅仅四个例子,就打败了所有小样本学习:DeepMind的800亿模型真正学习了

时间:2023-03-15 08:53:35 科技观察

智能,其关键是能够在给出简短指令时快速学习如何执行新任务。例如,当孩子在动物园里看到动物时,他会把它与他在书本上看到的联系起来,认出这只动物,即使书本上的动物与真正的动物有很大的不同。但是对于学习新任务的典型视觉模型,它必须在数万个专门为该任务标记的示例上进行训练。如果一项研究的目标是对图像中的动物进行计数和识别,例如“三只斑马”这样的描述,为了完成这项任务,研究人员将不得不收集数千张图像,并在每张图像上标注数量和数量。类型。但标注过程效率低且成本高,资源密集型任务需要大量标注数据,每次遇到新任务都要训练新模型。采用不同的方法,DeepMind正在探索替代模型,这些模型可以在仅提供有限的特定任务信息的情况下使这个过程更容易和更有效。在DeepMind最新发表的一篇论文中,他们介绍了Flamingo模型,这是一种建立少样本学习新SOTA的单一视觉语言模型(visuallanguagemodel,VLM)。这意味着Flamingo可以只用少量的特定示例(很少的样本)解决许多困难的问题,而无需额外的训练。Flamingo的简单界面使这成为可能,它将图像、视频和文本视为提示,然后输出相关语言。论文地址https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf代码地址:https://github.com/lucidrains/flamingo-pytorch这个Flamingo模型有多聪明?先来看看效果:Flamingo可以进行开箱即用的多模态对话。下图是使用OpenAI的DALL·E2生成的“汤怪”图像。在关于这张图像的不同问答中,Flamingo可以得到准确的回答。示例问题:这张图片里有什么?火烈鸟回答:一碗汤,上面有一张怪物的脸。Flamingo也可以通过并识别著名的Stroop效应。比如,提前举几个例子。例如,提问者给出了GREEN这个词,意思是绿色,用蓝色字体表达,则回答者需要回答:Thecolorisgreenandwritteninblue。在给出几组例子后,Flamingo学会了这个模式,当给出YELLOW绿色字体时,Flamingo回答:颜色是黄色,写成绿色。此外,Flamingo认识到这是一个Stroop测试。下图显示了两个动物图像示例和标识其名称的文本以及对在哪里可以找到它们的描述。Flamingo可以通过给定新图像输出描述来模仿这种风格:例如,给定一只龙猫,在ShibaInu示例之后,Flamingo模仿这一点,输出这是在加勒比海发现的火烈鸟。Flamingo也可以做算术(第四行):像大型语言模型一样,Flamingo可以通过简单地提示几个例子(上图)来快速适应各种图像和视频理解任务。Flamingo还具有丰富的视觉对话(下图)。研究概述模型架构和方法论在实践中,Flamingo通过在两者之间添加新颖的架构组件,将每个单独预训练和冻结的大型语言模型与强大的视觉表示融合在一起。然后仅使用来自网络的补充性大规模多模态混合数据对其进行训练,而不使用任何标记为机器学习目的的数据。按照这种方法,研究人员从最近推出的计算最优的700亿参数语言模型Chinchilla开始,训练最终的800亿参数VLM模型Flamingo。经过训练后,Flamingo可以通过简单的few-shot学习直接应用于视觉任务,无需任何额外的特定任务微调。下图提供了Flamingo架构的概览。第一个是视觉处理和PerceiverResampler。Flamingo模型的视觉编码器是预训练的NFNet,研究人员使用的是F6模型。在Flamingo模型的主要训练阶段,他们冻结了视觉编码器,因为它比直接在文本生成的对象上训练视觉模型表现更好。最后阶段是将特征X_f的2D空间网格展平为1D,如下图4所示。PerceptronResampler模块将视觉编码器连接到冻结语言模型(如上图3所示),并将来自视觉编码器的可变数量的图像或视频特征作为输入,以产生固定数量的视觉输出,如中所示如下图4所示。接下来是在视觉表示上调整冻结的语??言模型。如下图5所示,文本生成由Transformer解码器执行,该解码器以感知器重采样器生成的视觉表示X为条件。研究人员通过将从纯文本语言模型获得的预训练块与使用感知器重采样器的输出作为输入从头开始训练的块交错来构建模型。此外,为了使VLM模型具有足够的表现力并在视觉输入上表现良好,我们在初始层之间插入了从头开始训练的门控注意力密集块。最后,如下图7所示,研究人员在三种类型的混合数据集上训练了Flamingo模型:交错的图像和文本数据集、图像和文本对以及从网页中提取的视频和文本对。实验结果当研究中包含的16项任务中的每一项仅给出4个示例时,Flamingo击败了所有以前的小样本学习方法。在某些情况下,Flamingo模型甚至优于单独微调每个任务并使用更多数量级的任务特定数据的方法。这使得非专家可以快速轻松地使用准确的视觉语言模型处理手头的新任务。下面的左面板显示了Flamingo在16种不同的多模式任务上与任务特定的SOTA方法的小样本性能比较。右侧是16个基准中的3个的预期输入和输出示例。FutureOutlookFlamingo是一个有效且高效的通用模型系列,可应用于图像和视频理解任务,具有最少的任务特定示例。DeepMind表示,像Flamingo这样的模型很有希望以实际方式造福社会,并将继续提高模型的灵活性和功能,以便可以安全地部署它们。Flamingo展示的功能为与学习的视觉语言模型进行丰富的交互铺平了道路,这些模型可以实现更好的可解释性和令人兴奋的新应用程序,例如在日常生活中帮助人们的视觉助手。