当前位置: 首页 > 科技观察

何恺明时隔2年再发一作论文:为视觉大模型开路,全文没一个公式

时间:2023-03-14 11:29:45 科技观察

何玉明时隔2年又发表论文:为大视觉模型开路,全文无公式??本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处。大神话不多,但每写一篇论文,都一定会引起世界的震动。这不,在上一篇第一作者论文发表2年后,贺玉明再次以第一作者论文的身份带来了最新的研究成果。依旧是视野的钻研,依旧是何毓明那种大道至简的风格。简洁:整篇论文没有一个公式。有效:大巧思不劳而获,用最简单的方法展现精致之美。江湖震撼:《CVPR2022最佳论文候选日程》。那么,何玉明的新作:MaskedAutoencodersAreScalableVisionLearners,有哪些思考和研究成果呢?CV的自监督学习方案在本文中,我们提出了一种用于计算机视觉的掩码自动编码器(MAE)。-类似于NLP技术的自我监督方法。操作很简单:屏蔽输入图像的随机补丁并重建丢失的像素。有两个主要的核心设计。一种是非对称编码器-解码器架构,高比率屏蔽输入图像。让我们首先看一下编码解码架构。如图所示,编码器是ViT,它只对可见块进行操作,然后使用轻量级编码器,在预训练时只负责图像重建任务。具体来说,作者首先将图像均匀划分为不重叠的块,然后对块进行随机采样。以75%的遮蔽率为例,它首先遮蔽输入图像中75%的随机块,编码器只在可见的25%块子集上运行,这样就可以用很少的计算量和显存来训练非常大的编码器。解码器然后结合可见和掩蔽标记,并向所有标记添加位置嵌入,通过预测每个掩蔽块的像素值来重建图像信号。这样在预训练时解码器就可以独立于编码器,这样就可以使用非常轻量级的解码器实验,大大减少预训练时间。另一个特点是,当屏蔽大部分输入图像时,自监督任务效果很好。例如mask掉80%随机patch的效果如下:最左边一列是输入图像,中间一列是MAE方法的重建效果,最右边一列是原图效果。不同掩蔽率在重构图像中的表现对比如下:将两种设计结合起来,将结果用于训练大型模型:训练速度提升3倍以上,准确率为也有所改善。此外,基于该方案的大型模型具有良好的泛化能力:例如,仅使用ImageNet-1K数据时,ViT-Huge模型的准确率为87.8%。在COCO数据集上的表现如下。虽然重建效果不明显,但基本语义是正确的。研究人员还评估了MAE迁移学习的性能。结果优于目标检测、实例分割和语义分割等下游任务的监督预训练。对比可以看出,在随机着色75%、块着色50%和网格着色50%这三种采样方式中,随机着色75%的重建图像质量最好。基于这些研究成果,何玉明团队在最后也发表了自己的看法。一方面,具有良好可扩展性的简单算法是深度学习的核心。在计算机视觉中,尽管自我监督学习取得了进步,但实际的预训练仍然需要监督。在这项研究中,作者发现自动编码器在ImageNet和迁移学习任务中表现出非常强大的可扩展性优势。出于这个原因,作者认为CV中的自监督学习现在可能与NLP走上了类似的轨道。另一方面,作者指出图像和语言是不同性质的信号,需要谨慎处理这种差异。图像只是记录下来的光,没有将视觉类似物在语义上分解成文字。他们不是试图删除对象,而是删除可能不构成语义段的随机块。重建的像素也不是语义实体。研究团队论文的研究团队来自于Facebook人工智能研究院(FAIR),他们每个人都曾多次获奖,堪称梦之队。这次除了几位老将之外,再来说说内线的华人面孔。陈鑫磊,毕业于浙江大学计算机专业,后攻读博士学位。在卡内基梅隆大学,并在加州大学洛杉矶分校、谷歌云和MSR实习。谢赛宁,毕业于上海交通大学ACM班,后攻读博士学位。在加州大学圣地亚哥分校获得计算机科学博士学位,并曾在谷歌和DeepMind实习。李洋浩,毕业于北京大学计算机专业,获学士学位,后留校继续攻读硕士学位。最后,我想再次介绍一下何玉铭。何凯明大家都很熟悉。作为MaskR-CNN的主要提出者,4次获得顶级会议最佳论文。何玉明2003年广东高考第一名,保送清华大学进入杨振宁发起的物理系基础科学班。硕士和博士期间,何玉铭去了香港中文大学多媒体实验室,他的导师是商汤科技创始人汤晓鸥。在此期间,何玉铭还以实习生的身份进入了微软亚洲研究院。在孙健的指导下,以作者身份发表了ResNet研究,一举名扬全球,并获得2016年CVPR最佳论文。同年,何毓明进入以YannLeCun(2019年图灵奖获得者)为首的Facebook人工智能实验室,与本研究的其他几位老面孔RossGirshick和PiotrDollar一起,结成FAIR在人工智能领域的梦想。人工智能研究团队。更让人佩服的是,明年何凯名气就小了,但他这几年一直潜心钻研,总能带来新的惊喜。就连他的新研究,也有不少是那种可以传播的果实。这一次,MAE也被视为这样的延续。你觉得MAE怎么样?论文链接https://arxiv.org/abs/2111.06377