多模态研究的一个重要目标是提高机器理解图像和文本的能力。特别是,研究人员非常关注如何在两个模型之间实现有意义的通信。例如,图像字幕应该能够将图像的语义内容转换为人类可以理解的连贯文本。相反,文本图像生成模型也可以利用文本描述的语义来创建逼真的图像。这导致了一些与语义相关的有趣问题:对于给定的图像,哪种文本描述最准确地描述了图像?同样,给定文本,最有意义的图像实现是什么?对于第一个问题,有研究认为最好的图像描述应该是既自然又能还原视觉内容信息的。而对于第二个问题,有意义的图片应该是高质量的、多样的并且忠实于文本内容。然而,在人类交流的驱动下,涉及文本-图像生成模型和图像-文本生成模型的交互任务可以帮助我们选择最准确的图像-文本对。如图1所示,在第一个任务中,图像-文本模型是信息发送者,文本-图像模型是信息接收者。发送方的目标是使用自然语言将图像的内容传达给接收方,使其能够理解语言并重建真实的视觉表示。一旦收件人能够以高保真度重建原始图像信息,则信息已成功传递。研究人员认为,这样生成的文字描述是最好的,生成的图像也与原始图像最相似。这种模式的灵感来自于人们使用语言进行交流的方式。设想以下场景:在紧急呼叫场景中,警察通过电话获知车祸和伤者的情况。这实质上涉及到对现场目击者进行图片描述的过程。警方需要根据口头描述在脑海中重建环境场景,以组织相应的救援行动。显然,最好的文字描述应该是场景重建的最好指导。第二个任务涉及文本重建:文本-图像模型成为信息发送者,图像-文本模型成为信息接收者。一旦两个模型在文本层面就信息内容达成一致,用于传达信息的图像介质就是再现源文本的最佳图像。在这篇论文中,来自慕尼黑大学、西门子股份公司等机构的研究人员提出了与智能体间通信密切相关的方法。语言是主体之间交换信息的主要方式。但是我们如何确定第一个智能体和第二个智能体对什么是猫或什么是狗有相同的理解呢?论文地址:https://arxiv.org/pdf/2212.12249.pdf这篇论文想探讨的思路是让第一个agent分析图像并生成描述图像的文本,然后第二个agent将文本和相应地模拟图像。其中,后一过程可以认为是一个具体体现的过程。该研究认为,如果第二个代理模拟的图像与第一个代理接收到的输入图像相似(见图1),则通信成功。在实验中,该研究使用现成的模型,尤其是最近开发的大规模预训练模型。比如Flamingo和BLIP都是图像描述模型,可以根据图像自动生成文本描述。同样,在图像-文本对上训练的图像生成模型可以理解文本的深层语义并合成高质量图像,例如DALL-E模型和潜在扩散模型(SD)。此外,该研究利用CLIP模型来比较图像或文本。CLIP是一种视觉语言模型,可将图像和文本映射到共享的嵌入空间。该研究使用手动创建的图像到文本数据集(例如COCO和NoCaps)来评估生成文本的质量。图像和文本生成模型具有允许从分布中采样的随机组件,因此可以从一组候选文本和图像中选择最佳模型。包括核采样在内的不同采样方法都可以用于图像描述模型,本文以核采样作为基本模型来展示本文所用方法的优越性。方法概述我们的框架由三个预训练的SOTA神经网络组成。首先,图像到文本的生成模型;第二,文本到图像生成模型;第三,由图像编码器和文本编码器组成的多模态表示模型,可以将图像或文本分别映射到它们的语义嵌入。文字描述的图像重建如图2左半部分所示。图像重建任务是以语言为指令对源图像进行重建。这个过程的效果将导致生成描述源场景的最佳文本。首先,将源图像x馈送到BLIP模型以生成多个文本候选y_k。例如,一只小熊猫正在树林里吃树叶。生成的文本候选集记为C,然后将文本y_k送入SD模型生成图像x’_k。这里的x’_k指的是基于小熊猫生成的图像。随后,使用CLIP图像编码器从源图像和生成图像中提取语义特征:和。然后计算这两个嵌入向量之间的余弦相似度,目的是找到候选文本描述y_s,即其中s是最接近源图像的图像索引。该研究使用CIDEr(图像描述指标)根据人工注释评估最佳文本。由于我们对生成文本的质量感兴趣,因此本研究将BLIP模型设置为输出大致相同长度的文本。这确保了相对公平的比较,因为文本的长度与图像中可以传达的信息量呈正相关。在这项工作中,所有模型都被冻结,没有任何微调。从图像中重建文本图2的右侧部分显示了上一节中描述的过程的逆过程。BLIP模型需要猜测SD引导的源文本,它可以访问文本但只能以图像格式呈现其内容。该过程首先使用SD为文本y生成候选图像x_k,生成的候选图像集用K表示。使用SD生成图像涉及随机采样过程,其中每个生成过程可能以不同的有效图像样本结束在巨大的像素空间中。这种采样多样性提供了一个候选池来过滤出最佳图像。随后,BLIP模型为每个采样图像x_k生成文本描述y’_k。这里的y’_k指的是初始文本Aredpandaiscrawlingintheforest。然后,该研究使用CLIP文本编码器来提取源文本和生成文本的特征,分别用和表示。该任务的目标是找到与文本y的语义相匹配的最佳候选图像x_s。为此,研究需要比较生成文本和输入文本的距离,然后选择配对文本之间距离最小的图像,即研究认为图像x_s最能刻画文本描述y,因为它可以使用最小的信息损失将内容传递给接收者。此外,该研究将与文本y对应的图像视为y的参考表示,并将最佳图像量化为它与参考图像的接近程度。实验结果图3中的左图显示了两个数据集上图像重建质量和描述文本质量之间的相关性。对于每个给定的图像,重建图像的质量越好(显示在x轴上),文本描述的质量就越好(显示在y轴上)。图3的右图揭示了恢复的文本质量与生成的图像质量之间的关系:对于每个给定的文本,重建的文本描述越好(显示在x轴上),图像质量就越好(显示在y轴上)-轴)。轴)越好。图4(a)和(b)显示了图像重建质量与基于源图像的平均文本质量之间的关系。图4(c)和(d)显示了文本距离与重建图像质量之间的相关性。表1显示,本研究的抽样方法在每个指标下均优于核抽样,模型的相对增益可高达7.7%。图5显示了两个重建任务的定性示例。
