当前位置: 首页 > 科技观察

MetaAI推出“Omnivore”:一个处理图像、视频和3D数据分类任务的模型

时间:2023-03-16 00:39:51 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。最近,MetaAI引入了这样一个“杂食动物”(Omnivore)模型,它可以对不同视觉模态的数据进行分类,包括图像、视频和3D数据。例如,面对最左边的图像,它可以从深度图、单视3D图像和视频数据集中收集最佳匹配结果。过去,使用不同的模型来实现这一点;现在可以做一个模型。而且Omnivore易于训练,使用现成的标准数据集,其性能可以达到与对应的单一模型相当甚至更高的水平。实验结果表明,Omnivore在图像分类数据集ImageNet上可以达到86.0%的准确率,在用于动作识别的Kinetics数据集上可以达到84.1%的准确率,在用于单视图3D场景分类的SUNRGB-D上也可以达到86.0%的准确率。增长67.1%。另外,Omnivore在实现所有跨模态识别时,不需要访问模态之间的对应关系。可用于不同视觉模态的“杂食动物”Omnivore基于Transformer架构,具有该架构特有的灵活性,针对不同模态的分类任务进行联合训练。模型架构如下:Omnivore将输入图像、视频和单视图3D图像转换为embedding,并将其馈送到Transformer。虽然它可以使用任何视觉转换器架构来处理补丁嵌入,但鉴于Swin转换器在图像和视频任务上的强大性能,这里使用该架构作为基础模型。具体来说,Omnivore将图像转换为补丁,将视频转换为时空管,将单视图3D图像转换为RGB补丁和深度补丁。然后使用线性层将补丁映射到嵌入中。其中相同的线性层用于RGB补丁,单独的层用于深度补丁。总的来说,就是通过embedding将所有的视觉模式转换成一种通用的格式,然后利用一系列时空注意力操作来构建不同视觉模式的统一表示。研究人员在ImageNet-1K数据集、Kinetics-400数据集和SUNRGB-D数据集上联合训练了各种Omnivore模型。这种方法类似于多任务学习和跨模态对齐,但有2个重要区别:1.它不假设输入观察的对齐(即不假设图像、视频和3D数据之间的对应关系);2.假定这些数据集共享相同的标签空间。在SOTA实验的性能方面,首先将Omnivore与每个视觉模态对应的特定模型(具体见下表)进行比较。共有三种不同的模型大小:T、S和B。预训练模型针对七个下游任务进行了微调。特定于图像的模型在IN1K上进行了预训练。视频特定模型和单视图3D特定模型均通过预训练图像特定模型的膨胀进行初始化,并分别在K400和SUNRGB-D上进行微调。结果发现,Omnivore在几乎所有下游任务上的表现与特定模型相同或更好。其中,尺寸最大的Swin-B在所有任务上都达到了SOTA。将Omnivore与具有相同模型架构和参数数量的特定模型进行比较会得到相同的结果。其中,Omnivore是在IN1K、K400和SUN数据集上从头开始联合训练的,而特定模态模型是针对每个数据集专门训练的:ImageSwin模型是从头开始训练的,VideoSwin和DepthSwin模型是从ImageSwin模型。接下来,我们将Omnivore与图像、视频和3D数据分类任务上的最先进模型进行比较。结果还是不错的,Omnivore在所有的预训练任务中都表现出了比SOTA模型更好的表现(下图中图像、视频和3D数据从上到下)。此外,在ImageNet-1K数据集上检索给定RGB图像的深度图也发现,虽然Omnivore没有在1K深度图上进行训练,但它也能够给出语义相似的正确答案。最后,作者表示,尽管这种“杂食动物”代表了对传统模式特定模型的许多改进,但它也有一些局限性。例如,目前它仅适用于单视图3D图像,不适用于体素、点云等其他3D表示。论文地址:https://arxiv.org/abs/2201.08377代码开源:https://github.com/facebookresearch/omnivore