历史上训练过超级ViT？谷歌升级视觉语言模型PaLI：支持100+种语言

时间：2023-03-16 01:58:25 科技观察

近年来，自然语言处理的进步很大程度上来自于大规模语言模型。同时，还会有对现有基准排名的屠杀！比如今年4月，谷歌发布了5400亿参数的语言模型PaLM（PathwaysLanguageModel），在语言和推理的一系列评价中成功超越了人类，尤其是在few-shot小样本学习场景中。PaLM被认为是下一代语言模型的发展方向。同理，视觉语言模型其实是一个奇迹，可以通过增加模型规模来提升性能。当然，如果只是多任务视觉语言模型，显然不是很通用，必须支持多种语言的输入输出。近期，谷歌将PaLM扩展升级为PALI（PathwaysLanguageandImagemodel），兼具多语言和图像理解能力，支持100+种语言进行各种跨视觉、语言和多模态图像和语言应用，如视觉问答、图像描述、目标检测、图像分类、OCR、文本推理等。论文链接：https://arxiv.org/abs/2209.06794模型的训练使用了公共图像collection，包括自动爬取的109种语言的标注，文中也称为WebLI数据集。在WebLI上预训练的PaLI模型在COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等多个图像和语言基准上均取得了state-of-the-art性能，也超越了以往的多语言模型视觉描述（多语言视觉字幕）和视觉问答的基准。模型体系结构PALI的目标之一是研究语言和视觉模型在性能和规模上是否相关，尤其是语言-图像模型的可扩展性。因此，模型的架构设计非常简单，主要是为了方便实验，特别是可重用性和可扩展性。该模型由处理输入文本的Transformer编码器和生成输出文本的自回归Transformer解码器组成。在处理图像时，T??ransformer编码器的输入还包括表示ViT处理过的图像的视觉词。PaLI模型的一个关键设计是重用。研究人员使用先前训练的单峰视觉和语言模型（例如mT5-XXL和大型ViTs）的权重作为模型的种子。这种重用不仅可以迁移单峰训练的能力，还可以节省计算成本。模型的视觉组件使用了迄今为止最大的ViT架构ViT-e，与18亿参数的ViT-G模型结构相同，使用相同的训练参数，不同的是扩展到了40亿参数.尽管在视觉和语言领域都研究了缩放规律，但在组合视觉和语言模型中很少探索缩放行为，并且放大视觉骨干模型可能导致分类任务的收益饱和。研究人员也进一步证实了这一点，可以观察到ViT-e在ImageNet上只比ViT-G略好，但ViT-e在PaLI的视觉语言任务上有很大的提升。例如，在COCO字幕任务上，ViT-e比ViT-G高出近3个CIDEr点。在任务中比ViT-G多3分。这也暗示了未来在视觉语言任务中使用更大的ViT骨架模型的空间。研究人员采用mT5主干作为语言建模组件，使用预训练的mT5-Large（10亿参数）和mT5-XXL（130亿参数）初始化PaLI的语言encoder-decoder，然后在多种语言上执行继续混合训练，包括纯语言理解任务，也有助于避免灾难性地遗忘mT5的语言理解和生成能力。最终得到三个不同尺寸的PALI模型。109种语言的数据集与深度学习相关的扩展研究表明，模型越大，所需的训练数据集就越大。因此，为了充分研究和释放语言-图像预训练模型的潜力，研究人员从互联网上抓取了大量的图像和文本数据，构建了一个新的数据集WebLI，其中包括120亿条alt-texts109种语言。和100亿张图像。除了使用网页文本进行标注外，研究人员还应用云视觉API对图像进行OCR识别，进而获得了290亿个图像-OCR数据对。来自68个常见视觉和视觉语言数据集的训练、验证和测试部分的图像使用近重复进行了去重，以避免下游评估任务的数据泄漏。为了进一步提高数据质量，研究人员还会根据“imageandalt-text”的跨模态相似度进行评分，并调整阈值，最终只保留10%的图像。总共使用10亿张图像训练PaLI训练大型模型由于vision-language任务是多模态的，因此要求模型具有多种语义处理能力，并且有不同的目标。例如，一些任务需要对象的局部定位才能准确解决任务，而另一些任务可能需要更多的全局语义信息。同样，一些语言任务可能需要很长的答案，而其他任务可能需要紧凑的答案。为了解决所有这些不一致的目标，研究人员利用WebLI预训练数据的丰富性，引入混合预训练任务（PretrainingTaskMixture）来为各种下游应用准备模型。为了使模型更通用以解决多个任务，作者将所有任务分组到一个单一的公共API（输入：图像+文本；输出：文本），实现多个图像和语言任务之间的知识共享，这也与共享预训练设置。用于预训练的目标被投影到与加权混合相同的API中，目标是保持重用模型组件的能力，同时训练模型以执行新任务。模型使用开源的T5X和Flaxformer框架在JAX中用Flax进行训练，视觉部分的ViT-e使用开源的BigVision框架拼接语言部分的词向量和生成的patch向量视觉部分一起形成多模态模型。Encoder-decoder输入，编码器用mT5-XXL预训练初始化。在PaLI的训练过程中，视觉组件的权重被冻结，只有多模态编码器-解码器的权重被更新。在实验部分，研究人员在常见的视觉语言基准上比较了PaLI，PaLI模型在这些任务上取得了最先进的结果，甚至超过了之前文献中提出的非常大的模型。例如，具有170亿个参数的PALI在某些VQA和图像字幕任务上优于具有800亿个参数的Flamingo模型。并且PALI在单语言或单视觉任务上也保持了良好的性能，尽管这不是PALI的主要训练目标。我们还研究了图像和语言模型组件如何在模型缩放方面相互作用，以及模型在何处产生最大收益。最后得出结论，这两个组件的联合缩放（scaling）产生了最好的性能，具体来说，缩放需要相对较少参数的视觉组件是最关键的，同时缩放对于提高多个语言任务的性能至关重要也很重要。在35种语言的基准Crossmodal-3600上评估PaLI后，可以发现多语言标题任务从PaLI模型的扩展中获益更多。为了避免在大型语言和图像模型中产生或加强不公平的偏见，需要对所使用的数据以及模型如何使用它的透明度，以及测试模型的公平性和进行负责任的数据分析，因此论文还提供了数据卡和模型卡片

上一篇：将IoT分析从数据中心扩展到雾服务器，再到网络边缘

下一篇：二十年来，网络安全领域的六大“里程碑”事件

历史上训练过超级ViT？谷歌升级视觉语言模型PaLI：支持100+种语言相关文章