近日,中山大学发布了基于常识的无偏视觉问答数据集(知-路由视觉问题推理,KRVQA)。由于自然语言和注释者之间的天然偏差,现有算法可以在不理解相应的文本和图像信息的情况下,通过在数据集中拟合这些偏差来取得良好的效果。相关论文发表于国际知名顶级期刊TNNLS。在自然语言处理和计算机视觉领域,已有探索基于常识的阅读理解和视觉问答问题的工作。这些类型的问题需要一种需要额外常识才能得出答案的算法。然而,大多数现有的常识视觉问答数据集都是人工标注的,并不是基于适当的知识或情感表征来构建的。这不仅导致常识分布相当稀疏,在解释时容易产生歧义,而且容易引入标注者偏差,使得相关算法仍然侧重于增加神经网络的表达能力,以适应问题和答案之间的表层关系.针对这一问题,研究人员提出了一种新的知识路由视觉推理数据集(Knowledge-RoutedVisualQuestionReasoning,KRVQA),它基于现有的多个公共知识/常识图和现有的图像场景图。(场景图)相关部分,通过预定义的规则在图中搜索推理路径,生成大规模无偏问答和推理标注。如图1所示,该数据集避免了现有数据驱动的深度模型通过过拟合实现高精度,促进视觉问答模型正确感知图像中的视觉对象,理解问题并整合对象之间的关系和相应的常识回答问题。图1:KRVQA基准的示例示意图。具体地,基于从图像场景图或知识库中选择一个或两个三元组通过生成推理路径进行多步推理,并通过约束所使用的三元组将知识与其他偏差分离,并平衡答案的分布以避免答案歧义.两个主要约束是:1.一个问题必须与知识库中的多个三元组相关,但只有一个三元组与图像相关。2.所有问题都基于不同的知识库三元组,但训练集和测试集有相同的候选答案集。约束1可以强制视觉问答模型正确感知图像,而不是仅从给定的问题中猜测知识。约束2可以防止现有方法通过训练集中的样本拟合知识库,迫使模型通过外部知识处理未见问题,促进模型泛化研究。研究人员对各种知识库编码方法和最先进的视觉问答模型进行了广泛的实验,结果表明,在给定知识库的情况下,与一个相关的三元组的两个案例之间仍然会有很大的差距。给出的问题。不同之处。这表明所提出的KRVQA数据集可以很好地反映现有深度模型在知识推理问题上的不足。KRVQA数据集该数据集是基于从自然图像场景图和外部知识库中提取的一两个三元组形成推理结构,并在此结构的基础上,通过模板构建问答对。给定一张图像,研究人员首先将其场景图和外部知识库合并,形成图像相关的知识图。数据集利用已有的公共标注数据构建数据集,包括利用VisualGenome数据集中的图像场景图标注获取图像中的所有对象/关系三元组,利用WebChild、ConceptNet、DBpedia等通用知识库获取images常识是信息的三倍。场景图和知识库中的三元组都包含三个项目,一个主题,一个关系和一个对象。如果图像场景图中的对象与知识库中的三元组中的项目同名,则合并这两个项目。合并所有同名的item后,就可以得到图像相关的知识图谱。研究人员使用其中包含的三元组来生成复杂的问答对。然后从图中提取一条路径,根据路径提出一阶或二阶问题。推理路径的提取是由一组分层的基本查询构建的。一个基本查询将告诉模型去哪个信息源来获取给定主题A、对象B和关系R给定其中两个的第三个信息。例如,表示要求模型从知识库中找到包含主题A和对象B的三元组,并取出三元组的关系R作为输出。有如下6个基本查询::给定一个主题A和一个对象B,从图像中获取它们的关系R。:给定一个主题A和一个关系R,从图像中获得一个对象B。:给定对象B和关系R,从图像中获取对象A。:给定主题A和对象B,从知识库中获取它们的关系R。:给定一个主题A和一个关系R,从知识库中获得一个对象B。:给定一个对象B和一个关系R,从知识库中得到一个主题A。通过将每个基本查询的输出作为下一个基本查询的输入,可以形成问题的层次推理结构,作为标注信息。例如,“桌子上的物品是做什么用的?”需要从图像中查询知道桌子上有什么,给定对象A和前面查询的关系“UsedFor”,从知识库中得到桌子上的对象的有用性。最后,根据提取的三元组和模板,如“(man,holds,umbrella)”和模板“whatis
