中山大学发布无偏视觉问答数据集，论文发表于顶级期刊TNNLS

时间：2023-03-17 01:18:55 科技观察

近日，中山大学发布了基于常识的无偏视觉问答数据集（知-路由视觉问题推理，KRVQA）。由于自然语言和注释者之间的天然偏差，现有算法可以在不理解相应的文本和图像信息的情况下，通过在数据集中拟合这些偏差来取得良好的效果。相关论文发表于国际知名顶级期刊TNNLS。在自然语言处理和计算机视觉领域，已有探索基于常识的阅读理解和视觉问答问题的工作。这些类型的问题需要一种需要额外常识才能得出答案的算法。然而，大多数现有的常识视觉问答数据集都是人工标注的，并不是基于适当的知识或情感表征来构建的。这不仅导致常识分布相当稀疏，在解释时容易产生歧义，而且容易引入标注者偏差，使得相关算法仍然侧重于增加神经网络的表达能力，以适应问题和答案之间的表层关系.针对这一问题，研究人员提出了一种新的知识路由视觉推理数据集（Knowledge-RoutedVisualQuestionReasoning，KRVQA），它基于现有的多个公共知识/常识图和现有的图像场景图。(场景图)相关部分，通过预定义的规则在图中搜索推理路径，生成大规模无偏问答和推理标注。如图1所示，该数据集避免了现有数据驱动的深度模型通过过拟合实现高精度，促进视觉问答模型正确感知图像中的视觉对象，理解问题并整合对象之间的关系和相应的常识回答问题。图1：KRVQA基准的示例示意图。具体地，基于从图像场景图或知识库中选择一个或两个三元组通过生成推理路径进行多步推理，并通过约束所使用的三元组将知识与其他偏差分离，并平衡答案的分布以避免答案歧义.两个主要约束是：1.一个问题必须与知识库中的多个三元组相关，但只有一个三元组与图像相关。2.所有问题都基于不同的知识库三元组，但训练集和测试集有相同的候选答案集。约束1可以强制视觉问答模型正确感知图像，而不是仅从给定的问题中猜测知识。约束2可以防止现有方法通过训练集中的样本拟合知识库，迫使模型通过外部知识处理未见问题，促进模型泛化研究。研究人员对各种知识库编码方法和最先进的视觉问答模型进行了广泛的实验，结果表明，在给定知识库的情况下，与一个相关的三元组的两个案例之间仍然会有很大的差距。给出的问题。不同之处。这表明所提出的KRVQA数据集可以很好地反映现有深度模型在知识推理问题上的不足。KRVQA数据集该数据集是基于从自然图像场景图和外部知识库中提取的一两个三元组形成推理结构，并在此结构的基础上，通过模板构建问答对。给定一张图像，研究人员首先将其场景图和外部知识库合并，形成图像相关的知识图。数据集利用已有的公共标注数据构建数据集，包括利用VisualGenome数据集中的图像场景图标注获取图像中的所有对象/关系三元组，利用WebChild、ConceptNet、DBpedia等通用知识库获取images常识是信息的三倍。场景图和知识库中的三元组都包含三个项目，一个主题，一个关系和一个对象。如果图像场景图中的对象与知识库中的三元组中的项目同名，则合并这两个项目。合并所有同名的item后，就可以得到图像相关的知识图谱。研究人员使用其中包含的三元组来生成复杂的问答对。然后从图中提取一条路径，根据路径提出一阶或二阶问题。推理路径的提取是由一组分层的基本查询构建的。一个基本查询将告诉模型去哪个信息源来获取给定主题A、对象B和关系R给定其中两个的第三个信息。例如，表示要求模型从知识库中找到包含主题A和对象B的三元组，并取出三元组的关系R作为输出。有如下6个基本查询：：给定一个主题A和一个对象B，从图像中获取它们的关系R。：给定一个主题A和一个关系R，从图像中获得一个对象B。：给定对象B和关系R，从图像中获取对象A。：给定主题A和对象B，从知识库中获取它们的关系R。：给定一个主题A和一个关系R，从知识库中获得一个对象B。：给定一个对象B和一个关系R，从知识库中得到一个主题A。通过将每个基本查询的输出作为下一个基本查询的输入，可以形成问题的层次推理结构，作为标注信息。例如，“桌子上的物品是做什么用的？”需要从图像中查询知道桌子上有什么，给定对象A和前面查询的关系“UsedFor”，从知识库中得到桌子上的对象的有用性。最后，根据提取的三元组和模板，如“(man,holds,umbrella)”和模板“whatis?”，得到问答对“whatisthemanholding?生成雨伞。表2不同问题类型及对应模板实例数据集的统计特性该数据集共包含32910张图片，193449个知识三元组和157201个问答对。其中包括68448个一步推理问题和88753个两步推理问题，以及87193个外部知识相关问题和70008个外部知识独立问题。对于与知识库无关的问题，候选答案的数量为2378。候选答案的频率在数据集中呈长尾分布。这使得模型有必要准确地解析图像，找出对象及其关系，并正确处理图像中不太显着的对象。在与知识库相关的问题中，候选答案的数量为6536。研究者通过限制每个答案的最大出现次数，使与知识库相关的问题的答案均??匀分布，避免模型对知识的拟合根据。验证集和测试集中97%的答案出现在训练集中，使得以前基于分类的视觉问答方法也可以应用于该数据集。图2知识相关问题的答案分布图3知识无关问题的答案分布KRVQA数据集的属性。其中，视觉问答模型包括：Q型。对于每个问题，使用其问题类型最常见的训练答案作为输出答案。LSTM。使用双向LSTM对问题进行编码。并仅使用问题编码来预测最终答案。推理路径预测。使用双向LSTM从场景图和知识库中检索正确答案以对问题进行编码，并以完全监督的方式训练和预测推理路径和问题类型。自下而上的关注。该方法在2017年视觉问答挑战赛中获得第一名。具有视觉问答模型的经典架构。MCAN。模块化共同注意网络(MCAN)是目前VQAv2数据集上性能最高的方法，无需使用额外数据，同时具有类似于在各种视觉语言任务上预训练的最先进模型的网络架构。表2不同视觉问答方法在KRVQA上的准确率如表2所示。基线方法“Q-type”和“LSTM”仅根据问题预测答案，准确率明显低于其他方法。所有方法在两步问题上的性能差距很大，在知识相关问题上的准确性较低。这些结果表明，KRVQA数据集中的问题需要结合图像上下文和知识的推理答案，而多跳推理对现有方法仍然具有挑战性。知识编码和预训练通过在整个知识库上进行训练，RotatE可以对知识库中的所有实体和关系进行编码，使三元组成为可能。研究人员使用RotatE对知识库三元组进行编码，并将它们与VQAv2数据集上最好的MCAN基线模型之一融合，如图4所示。图4.嵌入了知识库编码的MCAN模型。最近的研究表明，语言模型可以通过在大量文本上进行训练，在一定程度上对知识进行编码。受此启发，研究人员还在知识文本上预训练问题编码器，对知识进行隐式编码。具体来说，MCAN的self-attentionquestionencoder以一个知识三元组对应的文本作为输入，然后预测masked文本字符或者对应的知识三元组如图5所示。图5.implicitlyencoded的预训练任务示意图知识库。表3中显示的KRVQA结果表明，在给定标记的三元组或查询实体时，该模型可以显着改善知识相关问题的结果。然而，当给定查询实体以外的校准三元组“+知识推理”时，由于图像可能对应多个知识三元组，因此模型在推断图像答案方面仅取得了很小的改进。这两个预训练任务仅比基线方法略有改进。这说明了知识库在KRVQA中的重要性，同时说明了当前模型在正确感知图像内容和编码知识库方面的不足。表3不同知识库编码方法和MCAN基线方法的准确率