当前位置: 首页 > 科技观察

何玉明的MAE限制被打破,结合SwinTransformer,训练速度提升

时间:2023-03-15 17:12:22 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。自何玉明MAE诞生以来,MIM(MaskedImageModeling)这种自监督的预训练表征受到了越来越多的关注。但与此同时,研究人员也不得不思考其局限性。在MAE论文中,只使用了原始的ViT架构作为编码器,性能更好的分层设计结构(以SwinTransformer为代表)不能直接用于MAE方法中。于是,在研究团队中上演了一个综合范式。其中代表作之一是清华大学、微软亚洲研究院和西安交通大学提出的SimMIM,探索SwinTransformer在MIM中的应用。但与MAE相比,它同时对可见瓦片和蒙版瓦片进行操作,计算量过大。一些研究人员发现,即使是SimMIM的基本尺寸模型也无法在配备8个32GBGPU的机器上进行训练。基于这样的背景,东京大学&商汤科技&悉尼大学的研究人员提出了一个新思路。SwinTransformer不仅被集成到MAE框架中,拥有与SimMIM相当的任务性能,还保证了计算效率和性能——将分层ViT的训练速度提高了2.7倍,GPU内存占用减少了70%。来康康,这是什么研究?在将分层设计引入MAE的同时,本文提出了一种面向MIM的绿色分层视觉Transformer。也就是说,它允许分层ViT丢弃屏蔽的图块并仅对可见图块进行操作。具体实现包括两个关键部分。首先,设计了一种基于分而治之策略的组窗口注意力机制。具有不同数量可见瓦片的局部窗口被聚类成几个相等大小的组,然后在每个组内执行掩蔽的自注意力。其次,将上述分组任务视为一个约束动态规划问题,提出了一种受贪心算法启发的分组算法。它自适应地选择最佳组大小并将局部窗口划分为最小的组,以便最小化分组图块上的整体注意力计算成本。性能相当,训练时间大大减少。结果表明,在ImageNet-1K和MS-COCO数据集上的实验评估表明,性能与baselineSimMIM相当,效率提升2倍以上。与SimMIM相比,这种方法大大减少了所需的训练时间,消耗的GPU内存也少得多。具体来说,相同训练次数下,在Swin-B上速度提升2倍,内存减少60%。值得一提的是,研究团队在单台机器上进行评估,配备8个32GBV100GPU,而SimMIM是在2台或4台机器上进行评估。研究人员还发现,Swin-L越大,效率增益也越大,例如,与SimMIM192相比,速度提高了2.7倍。在实验的最后,提到了算法的局限性。其中之一是需要分层掩码来实现最佳效率,从而限制了更广泛的应用。这留给未来的研究。谈到这项研究的影响,研究人员表示,主要是减轻了MIM的计算负担,提高了MIM的效率和效果。感兴趣的朋友,可以点击下方链接了解更多~论文链接:https://arxiv.org/abs/2205.13515GitHub链接:https://github.com/LayneH/GreenMIMSimMIM论文链接:https://arxiv。组织/abs/2111.09886