当前位置: 首页 > 科技观察

CV的未来是图神经网络?中科院软件所发布了新的CV模型ViG,超越ViT

时间:2023-03-16 00:56:20 科技观察

计算机视觉的网络结构即将迎来一场革新?从卷积神经网络到具有注意力机制的视觉Transformer,神经网络模型将输入图像视为网格或补丁序列,但这种方法无法捕获变化或复杂的物体。例如,人们在观察一幅画时,会很自然地将整幅画分割成多个物体,并在物体之间建立空间等位置关系。也就是说,整个画面其实就是人脑的图形,对象是图上的节点。近日,中科院软件所、华为诺亚方舟实验室、北京大学和澳门大学的研究人员联合提出了一种新的模型架构VisionGNN(ViG),可以从图像中提取图级特征进行视觉任务。论文链接:https://arxiv.org/pdf/2206.00272.pdf首先需要将图像分成若干个patch作为图中的节点,通过连接最近邻patch构建图,然后使用ViG模型来分析整个图谱中所有节点的信息进行转换和交换。ViG由两个基本模块组成,Grapher模块使用图卷积来聚合和更新图信息,FFN模块使用两个线性层来转换节点特征。在图像识别和目标检测任务上的实验也证明了ViG架构的优越性,而GNN在通用视觉任务上的开创性研究将为未来的研究提供有益的启发和经验。论文作者为中国科学院软件研究所博士生导师、澳门大学名誉教授吴恩华教授。1970年毕业于清华大学工程力学与数学系,1980年毕业于英国曼彻斯特大学计算机系,获博士学位。主要研究领域为计算机图形学与虚拟现实,包括:虚拟现实、逼真图形生成、基于物理的仿真与实时计算、基于物理的建模与渲染、图像与视频处理与建模、视觉计算与机器学习。视觉GNN网络结构往往是提高性能的最关键因素。只要能保证数据的数量和质量,将模型从CNN切换到ViT,可以获得性能更好的模型。然而,不同的网络以不同的方式处理输入图像。CNN在图像上滑动窗口,引入平移不变性和局部特征。ViT和多层感知器(MLP)将图像转化为一个patch序列,比如将一个224×224的图像分成若干个16×16的patch,最终形成一个长度为196的输入序列。图神经网络更灵活。例如,在计算机视觉中,一项基本任务是识别图像中的对象。由于物体通常不是四边形的,形状可能是不规则的,因此ResNet、ViT等以往网络中常用的网格或序列结构是冗余的,处理起来不灵活。一个物体可以看作是由多个部分组成的,例如,一个人可以大致分为头部、上半身、手臂和腿。这些铰接的部分自然而然地形成了一个图结构,通过分析图,我们终于能够识别出这个物体可能是一个人。此外,图是一种通用的数据结构,网格和序列可以看作是图的特例。将图像视为图形对于视觉感知来说更加灵活和高效。使用图结构需要将输入图像分成几个补丁,并将每个补丁视为一个节点。如果把每个像素都看成一个节点,会导致图中的节点过多(>10K)。图建立后,首先通过图卷积神经网络(GCN)聚合相邻节点之间的特征,提取图像的表示。为了让GCN获得更多样化的特征,作者将多头操作应用到图卷积中,聚合后的特征通过不同权重的头进行更新,最终级联成图像表示。以前的GCNs通常会重复使用几个图卷积层来提取图数据的聚合特征,而深度GCNs中过度的平滑会降低节点特征的唯一性,导致视觉识别性能不佳。为了缓解这个问题,研究人员在ViG块中引入了更多的特征转换和非线性激活函数。首先,在图卷积前后应用线性层,将节点特征投射到同一域中,增加特征多样性。在图卷积之后插入一个非线性激活函数,以避免层崩溃。为了进一步提高特征转换能力,缓解过度平滑现象,还需要在每个节点上利用前馈网络(FFN)。FFN模块是一个简单的多层感知器,具有两个完全连接的层。在Grapher和FFN模块中,批归一化是在每个全连接层或图卷积层之后进行的。Grapher模块和FFN模块的堆叠构成了一个ViG块,也是构建大型网络的基本单元。与原来的ResGCN相比,新提出的ViG可以保持特征的多样性,并且随着层数的增加,网络也可以学习到更强的表示。在计算机视觉的网络架构中,常用的Transformer模型通常具有各向同性(Isotropic)结构(如ViT),而CNN则更倾向于使用金字塔结构(如ResNet)。为了与其他类型的神经网络进行比较,研究人员为ViG构建了各向同性和金字塔形网络架构。在实验对比阶段,研究人员在图像分类任务中选择了ImageNetILSVRC2012数据集,该数据集包含1000个类别、120M训练图像和50K验证图像。在目标检测任务中,选用了80个目标类别的COCO2017数据集,包括118k训练图片和5000张验证集图片。在各向同性ViG架构中,主计算过程中特征尺寸可以保持不变,易于扩展,对硬件加速友好。在将其与现有的各向同性CNN、Transformer和MLP进行比较后,可以看出ViG的性能优于其他类型的网络。其中,ViG-Ti达到了73.9%的top-1准确率,比DeiT-Ti模型高出1.7%,而计算成本相近。在金字塔结构的ViG中,随着网络的加深,特征图的空间尺寸逐渐缩小,利用图像的尺度不变特性同时生成多尺度特征。大多数高性能网络使用金字塔结构,例如ResNet、SwinTransformer和CycleMLP。在将PyramidViG与这些具有代表性的金字塔网络进行比较后,可以看出PyramidViG系列可以超越或匹配包括CNN、MLP和Transformer在内的最先进的金字塔网络。结果表明,图神经网络可以很好地执行视觉任务,并有可能成为计算机视觉系统的基本构建块。为了更好地理解ViG模型的工作流程,研究人员将ViG-S中构建的图结构可视化。两个不同深度的样本图(块1和12)。五角星是中心节点,颜色相同的节点是它的邻居。只有两个中心节点被可视化,因为绘制所有边缘会很混乱。可以看出,ViG模型可以选择与内容相关的节点作为一阶邻居。在浅层中,通常根据颜色和纹理等低级和局部特征来选择邻居节点。在深层,中心节点的邻居更具语义并且属于同一类别。ViG网络可以通过节点的内容和语义表示逐渐连接节点,有助于更好地识别对象。