当前位置: 首页 > 科技观察

清华大学孙茂松教授提出了一种新的微调框架CPT,准确率提高了17.3%

时间:2023-03-20 17:57:59 科技观察

预训练模型在计算机视觉和语言方面都取得了显着的效果,但是这些语言模型的一个主要问题是训练过程和推理过程之间的不匹配。清华大学孙茂松团队提出了一种新的微调框架CPT,利用颜色对图像和语言进行遮蔽融合,准确率提升17.3%,标准差降低73.8%!Pre-trainedVision-LanguageModels(VL-PTM)可以同时处理语言和视觉信息,也是完成各种多模态任务的基础模型。但是模型的预训练和微调之间存在巨大的差距。在预训练期间,大多数VLPTM都是根据掩码语言建模目标进行优化的。主要任务是从掩码词中的跨模态上下文中恢复。.然而,在微调期间,下游任务通常是通过将未屏蔽标记的表示分类为语义标签来完成的,其中通常会引入特定于任务的参数。这种差异阻碍了VL-PTM对下游任务的适应性,因此需要大量标记数据来优化VL-PTM对下游任务的视觉基础能力。针对这个问题,清华大学的研究人员提出了一种新的模型,叫做Cross-ModalPromptTuning(CPT),也可以叫做ColorfulPromptTuning。CPT是调整VL-PTM参数的新范例。关键是通过在图像和文本中添加基于颜色的共同参考标记,可以重新制定视觉基础以填补空白,最大限度地减少预训练和微调之间的差距。不同之处。为了在图像数据中使用自然语言表达,CPT由两部分组成:(1)视觉子提示(visualsub-prompt),用色块唯一标记图像区域;(2)文本子提示(textualsub-prompt)。子提示)将查询文本放入基于颜色的查询模板中。然后通过从查询模板中的掩码标记中恢复相应的彩色文本来实现目标图像区域的显式定位。论文作者为清华大学人工智能研究院常务副院长、清华大学计算机学位评定分委会主任委员、清华大学在线教育研究中心副主任孙茂松教授。教育部、清华大学大规模在线开放教育研究中心主任。曾任清华大学计算机系主任、党委书记。他的研究兴趣包括自然语言理解、中文信息处理、网络智能、社会计算和计算教育学。配备CPT,VL-PTM可以在没有任何标记数据的情况下执行零样本视觉分组,因为VL-PTM已经很好地学习了颜色的跨模态表示及其与其他概念(例如,对象、属性和关系)的关系。当很少或所有标记实例可用时,CPT可以根据基于熵的目标函数进一步调整VL-PTM。虽然通过基于颜色的线索将图像和文本联系起来似乎效果很好,但研究人员仍然发现了两个关键问题:(1)如何确定颜色集C的配置;(2)如何使用有限的预训练颜色处理图像区域的数量。解决方案是跨模态提示搜索(Cross-modalPromptSearch)。之前关于文本提示调优的工作表明,提示配置(例如,文本模板)对性能有重大影响。这篇文章也是第一个关于搜索跨模式提示配置(即颜色集C)的研究。直觉上,C应该由VLPTM最敏感的颜色组成。为了获得颜色,一种简单的方法是取预训练文本中最常见的颜色文本,其标准RGB为civ。但是这个解决方案不是最优的,因为这个方法在确定彩色文本时没有考虑它的视觉外观,而真实图像中颜色的视觉外观往往与其标准RGB不同。因此,在跨模态提示搜索中,首先识别一组候选的全彩色文本。对于RGB空间中的每种可能颜色,纯色块被连接成带有文本子提示的VLPTM:[CLS][MASK]颜色的照片。[九月]。然后为每个候选颜色文本获得一个记录分数。记录的分数越大,表明cv和cw之间的相关性越高,并且在任何颜色视觉外观中排名不高的颜色文本被删除。最后,对于每个剩余的彩色文本,其视觉外观由最大颜色决定,实验结果表明,获得的颜色配置明显优于原始颜色配置。图像区域批处理。在视觉基础中,图像中的区域建议数量通常超过颜色集C(~10)的大小。此外,严重重叠的色块会阻碍视觉基础,因此需要将图像区域分成批次,每个批次包含少量适度重叠的图像区域,并且每个批次都单独标记视觉子线索。为了处理不包含目标区域的批次,在解码词汇表中进一步引入了一个新的候选文本none,表示该批次中没有目标区域。实验结果表明,微调后的VL-PTM的性能远优于微调后的PTM。1.CPT在zero-shot和few-shot设置下相对于randombaseline和strongfine-tuningbaseline有很大的优势(例如,在RefCOCO评估中,one-shot的绝对准确率提高了17.3%一般)。不同数据集和不同训练时间之间的改进是一致的。这表明CPT可以有效提高VLPTM调整的数据效率,并激发VLPTM的视觉接地能力。2.值得注意的是,与微调相比,CPT实现的标准偏差要小得多(例如,RefCOCO评估中的一次试验平均减少了73.8%的相对标准偏差)。这表明来自预训练的连贯调节方法可以导致更稳定的小样本训练,这也是评估小样本学习模型的关键因素。3.可以注意到,在RefCOCO+的评测中,CPT的微调性能比16shot略差。原因是Ref-COCO+具有更多基于颜色的表示(例如,穿着红色衬衫和蓝色帽子的人),这可能会干扰基于颜色的CPT。然而,在全监督场景下,这个问题可以通过更多的调优示例来缓解,模型可以学习更好地区分查询文本和提示模板中的颜色。4.在全监督设置中,CPT实现了与经过强烈微调的VLPTM相当的性能。结果表明,即使在完全监督下,CPT也是VL-PTM的一种有竞争力的调整方法。总之,与香草微调方法相比,CPT在零镜头、少镜头和全监督视觉方面实现了优越/可比和更稳定的性能。

猜你喜欢