当前位置: 首页 > 科技观察

从特征检测器到视觉转换器:卷积神经网络时代结束了吗?

时间:2023-03-14 20:20:21 科技观察

本文转载自公众号《核心阅读》(ID:AI_Discovery)。近十年来,卷积神经网络一直在全球计算机视觉研究中发挥着主导作用。但研究人员正在想出一种新方法来利用变压器的力量赋予图像更深的含义。Transformer最初是为自然语言处理任务设计的,专注于神经机器翻译。后来,来自GoogleResearch的AlexeyDosovitskiy、LucasBeyer等人写了一篇名为《一幅图像值得16x16个字符:大规模用于图像识别的转换器》的论文,提出了一种名为AnarchitecturefortheVisionTransformer(ViT)的方法,该方法通过换能器处理图像数据。卷积神经网络(CNN)的问题在深入研究视觉转换器的工作原理之前,有必要澄清卷积神经网络的缺点和基本缺陷。首先,卷积神经网络无法编码相对空间信息。也就是说,它只专注于检测某些特征而忽略了相对空间位置。上面两张图像都会被识别为人脸,因为卷积神经网络只关心输入图像中某些特征的存在与否,而忽略它们相对于彼此的位置。卷积神经网络的另一个主要缺点是池化层。池化层丢失了很多有用的信息,例如最活跃的特征检测器的确切位置。换句话说,它检测到某些特征但无法传达它们在图像中的确切位置。Transformers简介本质上,Transformers应用了自注意力的概念。这个概念可以分解为两个部分:自我和注意力。注意仅指对输入句子中各部分的重要性建模的可训练权重。假设输入一个句子,它会查看句子中的每个单词,并将该单词在句子中的位置与同一句子中所有单词(包括该单词)的位置进行比较。因此,转换器应用了自注意力的概念。转换器根据这些位置线索计算分数,然后使用这些线索更好地编码句子的语义或含义。从上面的例子可以看出,transformer中的注意力单元正在将单词“it”与句子中包括“it”在内的所有其他单词的位置进行比较。不同的颜色代表多个注意单元同时独立运行以发现这些连接中的不同模式。一旦从上述比较中计算出分数,它们就会通过一个简单的前馈神经元层发送并最终归一化。在训练期间,Transformer学习这些注意力向量。模型架构正如常规转换器从单词中理解句子一样,视觉转换器从像素中获得类似的图像效果。但是,这里有一个问题。与文本不同,单个像素本身不传达任何意义,这是我们选择使用卷积过滤器(对一组像素进行操作)的原因之一。他们将整个图像分成小块图像或文字。所有平铺图像都被线性投影矩阵展平,并连同它们在图像中的位置一起送入转换器(如上图所示)。在这个过程中,研究人员选择了大小为16x16的小块图像,于是就有了这样诗意的研究课题。现在,这些嵌入的补丁通过交替的多面自注意力层、多层感知器(具有简单结构的前馈神经元层)和类似于常规变换器中的那些层来归一化,其中分类头是安装在变压器编码器中以预测最终分类。与其他卷积模型一样,可以使用预训练编码器库和自定义MLP层来针对其分类任务微调模型。关键论文的作者在各种标记数据集上训练了模型,包括ImageNet、CIFAR-10/100和JFT-300M(谷歌拥有3亿张高分辨率图像的私有数据集)。在准确性方面,他们的模型几乎与其他最先进的卷积模型一样准确(在许多情况下甚至更准确),但训练时间明显减少(减少约75%)并且使用的硬件资源更少。visualtransformer的另一个优势是能够很早地学习更高层次的关系,因为它使用全局注意力而不是局部注意力。人们甚至可以注意到一开始就远离卷积神经网络的东西。除了在训练期间高效之外,视觉转换器在训练数据更多的情况下也表现更好。来源:unsplash这是否意味着卷积神经网络已经过时,视觉转换器成为新常态?当然不是!卷积神经网络虽然有缺点,但在处理物体检测、图像分类等任务方面还是非常擅长的。高效的。作为最先进的卷积架构,ResNet和EfficientNet在处理此类任务方面仍然占据主导地位。然而,变形金刚在语言翻译等自然语言处理任务中取得了突破,并在计算机视觉领域展现出了广阔的前景。这个不断发展的研究领域的未来会怎样?只有时间会给出答案。