当前位置: 首页 > 科技观察

GoogleBrain的最新操作是“复古”:无需卷积注意力,图像分类接近SOTA

时间:2023-03-12 07:38:01 科技观察

GoogleBrain的VisualTransformer团队(ViT)做了一次复古操作。他们不使用卷积神经网络(CNN)或Transformer,仅依靠最早的AI视觉任务中使用的多层感知器(MLP)结构,他们已经取得了接近SOTA的性能,甚至在ImageNet中达到了最高性能图像分类任务。87.94%的准确率。这种架构称为MLP-Mixer,它使用了两种不同类型的MLP层,可以看作是一种特殊的CNN,使用1×1卷积进行通道混合(按位运算),全感受野和参数共享。用于字符混合(交叉位操作)的单通道深度卷积。Mixer-H/14版本在JFT-300M数据集上预训练,微调到224分辨率,准确率达到86.32%,仅比SOTA模型ViT-H/14低0.3%,但运行2.2倍快。论文地址:https://arxiv.org/abs/2105.01601项目地址:https://github.com/google-research/vision_transformer/tree/linen