当前位置: 首页 > 科技观察

分解NLP与CV的融合与创新:近年多模态深度学习盘点

时间:2023-03-13 09:11:10 科技观察

近年来,NLP与CV领域在方法上不断取得突破。不仅单峰模型取得了进步,大规模多峰方法也成为一个非常活跃的研究领域。论文地址:https://arxiv.org/pdf/2301.04856v1.pdf项目地址:https://github.com/slds-lmu/seminar_multimodal_dl在最近的一篇论文中,研究员MatthiasA?enmacher回顾了深度学习的Currentstate-of-the-对这两个子领域的艺术研究方法进行全面的概述。此外,还讨论了将一种模态转换为另一种模态的建模框架(第3.1章和第3.2章),以及利用一种模态增强另一种模态的表征学习模型(第3.3章和第3.4章)。研究人员通过介绍一种专注于同时处理两种模式的架构(第3.5节)来结束第二部分。最后,本文还介绍了其他模态(第4.1章和第4.2章)以及能够在统一架构中处理不同模态上的不同任务的通用多模态模型(第4.3章)。一个有趣的应用程序(“生成艺术”,第4.4章)最终成为这篇评论的锦上添花。论文的章节如下:多模态深度学习简介人类有五种基本感觉:听觉、触觉、嗅觉、味觉和视觉。通过这五种模式,我们感知和理解我们周围的世界。“多模态”是指同时使用多个信息通道的组合来了解周围环境。例如,当蹒跚学步的幼儿学习“猫”这个词时,他们会以不同的方式大声念出这个词,指着猫,并发出“喵喵”之类的声音。人工智能研究人员以人类学习过程为范式,结合不同的模式来训练深度学习模型。从表面上看,深度学习算法通过训练神经网络优化损失函数来优化定义的目标函数。优化,即最小化损失,是通过称为梯度下降的数值优化程序完成的。因此,深度学习模型只能处理数值输入,也只能产生数值输出。然而,在多模态任务中,我们经常会遇到图像或文本等非结构化数据。因此,关于多模态任务的第一个问题是如何以数字方式表示输入;二是如何正确结合不同的方式。例如,训练一个深度学习模型来生成一张猫的图片可能是一项典型的任务。首先,计算机需要理解文本输入“猫”,然后以某种方式将该信息翻译成特定图像。因此,需要确定输入文本中单词之间的上下文关系和输出图像中像素之间的空间关系。对蹒跚学步的孩子来说可能很容易的事情对计算机来说可能是一个巨大的挑战。两人都必须对“猫”这个词有一定的了解,包括这种动物的内涵和外貌。当前深度学习领域的一种常见方法是在某些潜在空间中生成将猫用数字表示为向量的嵌入。为了实现这一目标,近年来开发了各种方法和算法架构。本文概述了最先进的(SOTA)多模式深度学习中使用的各种方法,以克服非结构化数据和不同模式输入的组合带来的挑战。章节介绍由于多模态模型通常将文本和图像作为输入或输出,因此第2章重点介绍自然语言处理(NLP)和计算机视觉(CV)方法。NLP领域的方法主要是文本数据处理,而CV主要是图像处理。关于NLP(第2.1节)的一个非常重要的概念称为词嵌入,它是当今几乎所有多模态深度学习架构的重要组成部分。这个概念也构成了BERT等基于Transformer的模型的基础,这些模型在多项NLP任务中取得了重大进展。尤其是Transformer的self-attention机制,彻底改变了NLP模型,这也是为什么大多数NLP模型都以Transformer为核心的原因。在计算机视觉(第2.2节)中,作者介绍了不同的网络架构,即ResNet、EfficientNet、SimCLR和BYOL。在这两个领域中,比较不同的方法以及它们在具有挑战性的基准测试中的表现是非常有意义的。因此,第2章末尾的2.3小节全面概述了CV和NLP的不同数据集、预训练任务和基准。第3章侧重于不同的多模式架构,涵盖文本和图像的各种组合,所提出的模型结合并推进了NLP和CV中不同方法的研究。我们首先介绍Img2Text任务(第3.1节)、用于对象识别的MicrosoftCOCO数据集和用于图像捕获的Meshed-MemoryTransformer。此外,研究人员开发了基于短文本提示生成图像的方法(第3.2节)。这项任务的第一个模型是生成对抗网络(GAN)和变分自动编码器(VAE)。近年来,这些方法不断得到改进,如今的SOTATransformer架构和DALL-E、GLIDE等文本引导扩散模型取得了显著成果。另一个有趣的问题是如何使用图像来支持语言模型(第3.3节)。这可以通过顺序嵌入、更高级的实用嵌入或直接在Transformer内部实现。另请参阅支持文本的CV模型,例如CLIP、ALIGN和Florence(第3.4节)。基础模型的使用意味着模型重用(例如DALL-E2中的CLIP),以及文本到图像连接的对比损失。此外,零样本可以通过微调毫不费力地对新的和看不见的数据进行分类。特别是CLIP,一种用于图像分类和生成的开源架构,去年受到了很多关注。第3章(第3.5节)末尾介绍了一些用于处理文本和图像的其他体系结构。例如,Data2Sec对语音、视觉和语言使用相同的学习方法,并试图找到一种通用方法来在单一架构中处理不同的模态。此外,VilBert扩展了流行的BERT架构,通过实施联合关注来处理图像和文本输入。Google的DeepmindFlamingo也使用了这种方法。此外,Flamingo的目标是通过少量学习和冻结预训练的视觉和语言模型,用一个视觉语言模型处理多个任务。最后一章(第4章)介绍了能够处理文本和图像以外的模式的方法,例如视频、语音或表格数据。总体目标是探索通用的多模态架构,而不是为了模态而模态,而是为了应对风格上的挑战。因此,还需要处理多模态融合和对齐问题,决定是使用联合表示还是协调表示(第4.1节)。此外,将更详细地描述如何精确组合结构化和非结构化数据(第4.2节)。作者还提出了近年来开发的不同融合策略,本文通过生存分析和经济学中的两个用例对此进行了说明。除此之外,另一个有趣的研究问题是如何在所谓的多用途模型(第4.3节)中处理不同的任务,就像谷歌研究人员在他们的“Pathway”模型中创建的那样。最后,文章将展示多模态深度学习在艺术场景中的典型应用,使用DALL-E等图像生成模型来创作生成艺术领域的艺术品(4.4节)。有关更多信息,请参阅原始论文。