当前位置: 首页 > 科技观察

霸占多项CV任务,开源仅两天,微软分层ViT模型收获近2k星

时间:2023-03-21 22:40:54 科技观察

自谷歌2017年6月提出Transformer以来,逐渐成为自然语言处理领域的主流模型。近日,Transformer开启了自己的跨界之旅,开始在计算机视觉领域大显身手。出现了几个基于Transformer的新模型,比如谷歌的图像分类ViT和复旦、牛津、腾讯。SETR等人。结果,“变形金刚是万能的吗?”它也成为机器学习社区的热门话题。前不久,微软亚洲研究院的研究人员提出了一种通过移动窗口(shiftedwindows)计算的分层视觉Transformer,他们称之为SwinTransformer。与之前的ViT模型相比,SwinTransformer做了以下两点改进:首先,引入了CNN中常用的分层构造方法,构建分层的Transformer;self-attention计算是在该区域进行的。论文链接:https://arxiv.org/pdf/2103.14030.pdf首先看一下SwinTransformer的整体工作流程。下图3a展示了SwinTransformer的整体架构,图3b展示了两个连续的SwinTransformer块。这项研究的亮点是使用移动窗口计算分层Transformer的表示。通过将自我注意计算限制在非重叠的本地串行端口上,同时允许跨窗口连接。这种层次结构可以在不同尺度上灵活建模,计算复杂度与图像大小成线性关系。下图2展示了在SwinTransformer架构中使用移动窗口计算self-attention的工作流程:模型本身的特性使其能够在一系列视觉任务上取得具有竞争力的性能。其中,在ImageNet-1K数据集上实现了86.4%的图像分类准确率,在COCOtest-dev数据集上实现了58.7%的目标检测框AP和51.1%的maskAP。目前,Swin-L(SwinTransformer的一个变体)在COCOminival和COCOtest-dev数据集上的对象检测和实例分割任务上都达到了SOTA。此外,Swin-L在ADE20Kval和ADE20K数据集上的语义分割任务也取得了SOTA。在开源代码和预训练模型SwinTransformer论文公开后不久,微软于近日在GitHub上正式发布了代码和预训练模型,涵盖了图像分类、目标检测和语义分割等任务。上线仅两天,该项目就获得了1900颗星。项目地址:https://github.com/microsoft/Swin-Transformer第一个图像分类任务,Swin-T、Swin-S、Swin-B和Swin-L变体模型在ImageNet-1K和ImageNet-22K数据集上的准确率结果如下:第二个目标检测任务:Swin-T、Swin-S、Swin-B和Swin-L变体模型在COCO目标检测(2017val)数据集上的结果如下:最后一个语义分割任务:Swin的结果ADE20K语义分割(val)数据集上的-T、Swin-S、Swin-B和Swin-L变体模型如下。目前,Swin-L实现了53.50%的SOTA验证mIoU分数。