如果一张图片可以用一千个词来描述,那么图片中可以描绘的细节和对象之间的关系是那么多。我们可以描述狗皮毛的质地、要追逐的飞盘上的标志、刚刚扔飞盘的人脸上的表情等等。在这个阶段,包含文本描述及其对应图像的描述的数据集(例如MS-COCO和Flickr30k)已被广泛用于学习对齐的图像和文本表示以及构建描述模型。然而,这些数据集的跨模态关联有限:图像与其他图像不匹配,描述仅与同一图像的其他描述匹配,与描述匹配的图像存在但未标记为匹配,没有标签指示当图像和描述不匹配时。为了填补这个评估空白,我们提出了“交叉描述:MS-COCO的扩展模型内和模态语义相似性判断”。交叉描述(CxC)数据集使用图像-文本、文本-文本和图像-图像对的语义相似性评级扩展了MS-COCO的开发和测试。评级标准基于“语义文本相似性”,这是一种广泛存在于短文本对之间的语义相关性度量,我们还将其扩展到包括对图像的判断。我们已经发布了CxC的评分以及将CxC与现有MS-COCO数据合并的代码。创建CxC数据集CxC数据集扩展了MS-COCO评估拆分,在模式内部和模式之间使用分级相似性关联。鉴于随机选择的图像和描述匹配之间的低相似性,我们提出了一种通过人工评分选择项目以生成一些具有高相似性的新匹配的方法。为了减少所选匹配对用于查找它们的模型的依赖性,我们引入了一种间接采样方案,在该方案中,我们使用不同的编码方法对图像和描述进行编码,并计算相同模态度的匹配之间的相似性以生成相似性矩阵。图像使用Graph-RISE嵌入进行编码,而描述使用两种方法进行编码-通用句子编码器(USE)和基于GloVe嵌入的词袋(BoW)。由于每个MS-COCO示例都有五个辅助描述,我们平均每个辅助描述编码为每个示例创建单个表示,确保所有描述对都可以映射到图像。顶部:使用平均辅助描述编码构建的文本相似度矩阵(每个单元格对应一个相似度分数),每个文本条目对应一个图像。底部:数据集中每个图像的图像相似度矩阵。我们从文本相似度矩阵中选择两个具有高计算相似度的描述,然后对它们中的每一个进行图像拍摄,从而产生一对外观不同但根据描述相似的新图像。比如“一只害羞地侧身看的狗”和“一只仰着头享受微风的黑狗”模型相似度都比较高,所以下图中两只狗对应的图像可以选择一个图像相似度类。这一步也可以从计算相似度高的两张图片开始,生成一对新的描述。顶部:根据描述相似性选择图像匹配。底部:根据跟踪图像的相似性选择描述匹配。通过使用现有的图像标题对在模态之间进行链接来做到这一点。例如,如果人类将描述匹配样本ij评价为高度相似,我们从样本i中选择图像并从样本j中选择描述以获得人类评分的新模态内匹配。然后,我们使用具有最高相似度的模态对进行采样,其中可以包括一些具有高相似度的新匹配。具有不同相似度的语义图像相似度(SIS)和语义图像-文本相似度(SITS)示例,其中5最相似,0完全不相似。评估MS-COCO匹配是不完整的,因为有时对一幅图像的描述也适用于另一幅图像,但这些关联并未记录在数据集中。CxC通过新的前向匹配增强了这些现有的检索任务,还支持新的图像到图像检索任务。从其相似度评分来看,CxC还可以衡量模型与人类评分之间的相关性。不仅如此,CxC的相关性分数还考虑了相似性的相对顺序,其中包括低分项目(不匹配)。我们进行了一系列实验来证明CxC评级的效用。为此,我们构建了三个使用基于BERT的文本编码器并使用EfficientNet-B4作为图像编码器的双编码器(DE)模型:1.文本到文本(DE_T2T)模型,其中双方使用共享文本编码器。2.使用上面的文本和图像编码器的图像到文本模型(DE_I2T),在文本编码器之上有一个层来匹配图像编码器的输出。3.在文本-文本和图像-文本任务的加权组合上训练的多任务模型(DE_I2T+T2T)。文本-??文本(T2T)、图像-文本(I2T)和多任务(I2T+T2T)双编码器模型的CxC检索结果在图像检索任务上的性能优于DE_I2T(红色条)。因此,加入模态内(文本-文本)训练任务有助于提高模态间(图像-文本、文本-图像)性能。同模型的CxC相关结果对于关联任务,DE_I2T在SIS上表现最好,而DE_I2T+T2T整体最好。相关分数还表明DE_I2T仅在图像上表现良好:它具有最高的SIS,但更差的STS。在DE_I2T训练中加入text-to-textloss(DE_I2T+T2T)可以让整体表现更加均衡。
