当前位置: 首页 > 科技观察

历史上训练过超级ViT?谷歌升级视觉语言模型PaLI:支持100+种语言

时间:2023-03-16 01:58:25 科技观察

近年来,自然语言处理的进步很大程度上来自于大规模语言模型。同时,还会有对现有基准排名的屠杀!比如今年4月,谷歌发布了5400亿参数的语言模型PaLM(PathwaysLanguageModel),在语言和推理的一系列评价中成功超越了人类,尤其是在few-shot小样本学习场景中。PaLM被认为是下一代语言模型的发展方向。同理,视觉语言模型其实是一个奇迹,可以通过增加模型规模来提升性能。当然,如果只是多任务视觉语言模型,显然不是很通用,必须支持多种语言的输入输出。近期,谷歌将PaLM扩展升级为PALI(PathwaysLanguageandImagemodel),兼具多语言和图像理解能力,支持100+种语言进行各种跨视觉、语言和多模态图像和语言应用,如视觉问答、图像描述、目标检测、图像分类、OCR、文本推理等。论文链接:https://arxiv.org/abs/2209.06794模型的训练使用了公共图像collection,包括自动爬取的109种语言的标注,文中也称为WebLI数据集。在WebLI上预训练的PaLI模型在COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等多个图像和语言基准上均取得了state-of-the-art性能,也超越了以往的多语言模型视觉描述(多语言视觉字幕)和视觉问答的基准。模型体系结构PALI的目标之一是研究语言和视觉模型在性能和规模上是否相关,尤其是语言-图像模型的可扩展性。因此,模型的架构设计非常简单,主要是为了方便实验,特别是可重用性和可扩展性。该模型由处理输入文本的Transformer编码器和生成输出文本的自回归Transformer解码器组成。在处理图像时,T??ransformer编码器的输入还包括表示ViT处理过的图像的视觉词。PaLI模型的一个关键设计是重用。研究人员使用先前训练的单峰视觉和语言模型(例如mT5-XXL和大型ViTs)的权重作为模型的种子。这种重用不仅可以迁移单峰训练的能力,还可以节省计算成本。模型的视觉组件使用了迄今为止最大的ViT架构ViT-e,与18亿参数的ViT-G模型结构相同,使用相同的训练参数,不同的是扩展到了40亿参数.尽管在视觉和语言领域都研究了缩放规律,但在组合视觉和语言模型中很少探索缩放行为,并且放大视觉骨干模型可能导致分类任务的收益饱和。研究人员也进一步证实了这一点,可以观察到ViT-e在ImageNet上只比ViT-G略好,但ViT-e在PaLI的视觉语言任务上有很大的提升。例如,在COCO字幕任务上,ViT-e比ViT-G高出近3个CIDEr点。在任务中比ViT-G多3分。这也暗示了未来在视觉语言任务中使用更大的ViT骨架模型的空间。研究人员采用mT5主干作为语言建模组件,使用预训练的mT5-Large(10亿参数)和mT5-XXL(130亿参数)初始化PaLI的语言encoder-decoder,然后在多种语言上执行继续混合训练,包括纯语言理解任务,也有助于避免灾难性地遗忘mT5的语言理解和生成能力。最终得到三个不同尺寸的PALI模型。109种语言的数据集与深度学习相关的扩展研究表明,模型越大,所需的训练数据集就越大。因此,为了充分研究和释放语言-图像预训练模型的潜力,研究人员从互联网上抓取了大量的图像和文本数据,构建了一个新的数据集WebLI,其中包括120亿条alt-texts109种语言。和100亿张图像。除了使用网页文本进行标注外,研究人员还应用云视觉API对图像进行OCR识别,进而获得了290亿个图像-OCR数据对。来自68个常见视觉和视觉语言数据集的训练、验证和测试部分的图像使用近重复进行了去重,以避免下游评估任务的数据泄漏。为了进一步提高数据质量,研究人员还会根据“imageandalt-text”的跨模态相似度进行评分,并调整阈值,最终只保留10%的图像。总共使用10亿张图像训练PaLI训练大型模型由于vision-language任务是多模态的,因此要求模型具有多种语义处理能力,并且有不同的目标。例如,一些任务需要对象的局部定位才能准确解决任务,而另一些任务可能需要更多的全局语义信息。同样,一些语言任务可能需要很长的答案,而其他任务可能需要紧凑的答案。为了解决所有这些不一致的目标,研究人员利用WebLI预训练数据的丰富性,引入混合预训练任务(PretrainingTaskMixture)来为各种下游应用准备模型。为了使模型更通用以解决多个任务,作者将所有任务分组到一个单一的公共API(输入:图像+文本;输出:文本),实现多个图像和语言任务之间的知识共享,这也与共享预训练设置。用于预训练的目标被投影到与加权混合相同的API中,目标是保持重用模型组件的能力,同时训练模型以执行新任务。模型使用开源的T5X和Flaxformer框架在JAX中用Flax进行训练,视觉部分的ViT-e使用开源的BigVision框架拼接语言部分的词向量和生成的patch向量视觉部分一起形成多模态模型。Encoder-decoder输入,编码器用mT5-XXL预训练初始化。在PaLI的训练过程中,视觉组件的权重被冻结,只有多模态编码器-解码器的权重被更新。在实验部分,研究人员在常见的视觉语言基准上比较了PaLI,PaLI模型在这些任务上取得了最先进的结果,甚至超过了之前文献中提出的非常大的模型。例如,具有170亿个参数的PALI在某些VQA和图像字幕任务上优于具有800亿个参数的Flamingo模型。并且PALI在单语言或单视觉任务上也保持了良好的性能,尽管这不是PALI的主要训练目标。我们还研究了图像和语言模型组件如何在模型缩放方面相互作用,以及模型在何处产生最大收益。最后得出结论,这两个组件的联合缩放(scaling)产生了最好的性能,具体来说,缩放需要相对较少参数的视觉组件是最关键的,同时缩放对于提高多个语言任务的性能至关重要也很重要。在35种语言的基准Crossmodal-3600上评估PaLI后,可以发现多语言标题任务从PaLI模型的扩展中获益更多。为了避免在大型语言和图像模型中产生或加强不公平的偏见,需要对所使用的数据以及模型如何使用它的透明度,以及测试模型的公平性和进行负责任的数据分析,因此论文还提供了数据卡和模型卡片