Github链接:https://github.com/opengvlab家人,你有这样的苦恼吗?每次搬家,都需要更换家具。那些又贵又重的家具不好搬,更不容易全部搬走。下次再去买家具,不说浪费钱,关键是来来回回做同样的事情!家具没用过几次,利用率不高!这种搬家的苦恼就像是AI领域。为了完成一些任务,您需要开发几个高度定制的模型。不仅需要收集的数据量非常大,而且每次都要从头开始标注。既不能提高数据的学习效率,又消耗了巨大的数据获取成本。光是AI的前端研究就消耗了这么多精力,更何况是应用场景中的数以万计的长尾任务。那么该怎么办?做一个通用的深度学习模型是关键。1通用是基础技术无论国内外,底层技术追随者都以设计一个“通用模型”为己任。构建通用模型的两个主战场是深度学习应用最广泛的两个方向:语言和视觉。目前,通用语言模型(GLM)取得了令人瞩目的进展,例如BERT、T5和GPT-3,它们已经能够轻松处理广泛的语言下游任务。相比之下,对通用视觉模型(GVM)的研究尚未得出令人满意的答案。以往的GVM研究大多主要利用一种监督信号源,如ViT-G/14使用带标签的监督,SEER使用样本不同增强之间的对比学习,CLIP使用图像-文本对进行监督。如果在单个监督信号上进行预训练,这些范例确实可以生成在固定场景中表现良好的模型。但是,如果用在场景多样化、任务多样化的下游场景中,这些模型就会力不从心。比如现在最流行的自动驾驶,汽车处于移动状态。它需要看到路况、红绿灯和行人。即使是智能座舱兴起后,也需要配合语言技术和LBS场景服务。这么多的感知数据和协同任务,这么多随机的新任务,无论是体积还是维度,都大大增加了对视觉模型的要求。这时候只有打造通用的视觉模型,降低研发门槛,尤其是学术界的时间成本和资金成本,才能享受到极致的下游场景体验。去年11月,上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布通用视觉技术系统“学者”(INTERN),一套系统解决问题的持续学习框架在当前的人工智能视觉领域。存在任务泛化、场景泛化、数据效率等一系列瓶颈。不久前,上海人工智能实验室联合商汤科技发布了通用视觉开源平台OpenGVLab,将其超高效预训练模型、大规模公共数据集、业界首个通用视觉模型评估基准开放给学术界和工业界。.这些开源技术有什么魔力?2着力打造通用视觉模型“学者”(INTERN),这是开发通用视觉能力的底层技术。在技??术实现上,“学者”技术体系由七个模块组成,包括三个基础模块和四个训练阶段。三大基础设施模块分别为通用视觉数据系统(GV-D)、通用视觉网络结构(GV-A)、通用视觉评价基准(GV-B);四个训练阶段分别是:上游基础模型训练(Amateur)、上游专家模型训练(Expert)、上游通才模型(Generalist)训练;和下游应用培训(Downstream-Adaptation)。学者(INTERN)结构图首先,数据系统的通用可视化。这是一个超大规模的精细标注数据集,有100亿个样本和各种监督信号,根据四大视觉任务设置了四个数据子集:多模态数据GV-D-10BGV的分类和标注-Dc-36M,检测标记为GV-Dd-3M,分割标记为GV-Ds-143K。此外,该数据集还包含了119000个标签系统,不仅涵盖了自然界中的众多领域和目前计算机视觉研究中几乎所有的标签,还扩展了大量细粒度的标签,涵盖了机器视觉中的属性、状态等。各种图像。而这正是这位学者“活力奇迹”的注脚。二、通用视觉模型结构。它是从带有CNN和Transformer的统一搜索空间构建的。为什么会有这样的混合结构?重要的是要知道,卷积神经网络(CNN)多年来一直主导视觉表示学习,并在图像分类、对象检测和语义分割等下游任务中显示出稳定的可迁移性。然而,近年来,VisionTransformer(ViT)作为一种图像编码模型,仅使用普通的Transformer结构,已经能够在ImageNet-1k上实现与CNN相媲美的性能,ViT在大规模数据集上显示出比CNN更大的潜力。.尽管ViT在性能上具有优势,但与卷积神经网络相比,纯Transformer网络缺乏一定的归纳偏差,因此需要更多的数据和计算资源。此外,self-attention的计算成本是输入数量的二次方,限制了对高分辨率输入的应用。因此,结合CNN、Transformer和MLP来平衡效率和有效性两个方面是模型普适性的关键。这种具有更好泛化能力和更高模型容量的模型结构称为MetaNet。在MetaNet网络结构族中搜索网络结构,得到最优的模型训练结构。统一搜索的MetaNet架构:Conv和Trans分别代表卷积和Transformer。C和S是每个阶段的输出通道数和步幅。具体来说,MetaNet不仅提出了基于强化学习PPO算法的统一搜索架构,而且为了避免传统的下采样模块成为模型性能的瓶颈,“学者”结合了local-global-DSM(LG_DSM)和global-DSM(G-DSM)的context-awaredown-samplingmodules(DSM),用于替代原有的下采样模块。因此,在浅层,模型仍然使用卷积来提取特征,但在深层,模型可以结合使用Transformer模块和LG-DSM来更好地提取全局信息。同时,书生基于最大的MetaNet-B15提炼出多达13种不同的模型结构,共计24种不同的模型权重,现已全部开源。这些模型结构基本涵盖了市面上大部分的主流主干。它们不仅可以很容易地迁移到所需的算法框架作为新网络预训练的初始化,而且还可以用更短的训练时间实现比原来更快的训练。培训效果好。将MetaNet模型与其他模型结构进行对比,结果如下:基于卷积、Transformer以及两者混合的结构,分别用C、T、H表示,可以看出在图像方面分类性能方面,MetaNet系列的MN-B1、MN-B4和MN-B7与其他SOTA模型相比,不仅精度更高,而且FLOPS和参数量更低。除了分类任务,MetaNet被用作检测和分割的主干,MaskR-CNN结构被用于在COCO数据集上的训练。发现:在模型参数更小的前提下,MN-B4比Swin-T准确2到4个点。此外,在ADE20K数据集上进行语义分割任务,MN-B4的mIoU指标比Swin-T高5个点。以上两个实验结果表明MetaNet系列模型结构在模型精度和计算量上都达到了一个新的SOTA!最后,一个通用的视觉评估基准。视觉评估基准GV-B就像一个“戒指”。如下表所示,评估基准收集了26个下游任务数据集,涵盖了4类视觉任务:分类、检测、分割和深度估计。在设置方面,benchmark引入了percentage-shot,只需要选择整个数据集的一部分,比如10%和20%,来比较下游任务减少训练数据量后的模型性能。与传统的少样本设置相比,这种百分比样本设置可以很好地保留原始数据集的长尾分布等特性,减轻对样本选择的敏感性。因为有一些样本类别分布不均衡的数据集,比如下表中的VOC07+12,百分比数据的划分方式会继承这种分布。右边的三列,avg,min和max,分别代表10%的数据中不同类别样本的平??均值,最小值和最大值。结合以上数据集和任务类型,论文选择了一些有代表性的模型来做评测对比。为了公平起见,这个比较使用了这些模型的官方预训练权重。这些模型包括:RseNetCLIPResNeXtBiTViTSwAV、DeepClusterV2和MoCov2Detco有了超大精准的数据集、模型结构和评估基准后,一切就绪,只需要训练。作为中国古代文人的经典形象,书生代表了通过不断的学习和成长而拥有各种才能的人格化人物:从基础知识和技能的学习开始,到通晓多种专业知识,进而成长为具有一般知识的通才。有了这个图像,“学者”(INTERN)系统就可以通过不断的学习和推理,逐步实现对通用视觉领域的融合,最终实现灵活高效的模型部署。来看看这个系统是如何训练出来的,一步步从新手到专家再到通才,最终在各种任务中大显身手。第一阶段,训练基本能力,称为“基本模式”(Amateur)。近年来,CLIP因其在下游任务中的零样本识别能力和迁移能力而备受关注。然而,CLIP需要400M图像文本对进行预训练。由于数据量巨大,CLIP难以进一步发展。然而,《学者》提出了一种新的训练范式DeCLIP(DataefficientCLIP),它可以同时使用来自图像-文本、图像-图像和文本-文本对的监督信号进行模型预训练,从而更有效地实现通用-目的性。此外,为了充分利用大规模多模态数据获取底层模型的优势,本阶段提出了Upstream-Amateur(Up-A)视觉语言预训练框架,同时挖掘模态内和跨模态知识。该训练框架分为两个预训练阶段:Upstream-AmateurforGlobalRepresentation(Up-A-G)和Upstream-AmateurforLocalRepresentation(Up-A-L)。其中,Up-A-G(左)利用组监督功能学习更丰富的监督。Up-A-L(右)采用局部自监督学习方法调整训练好的视觉语言模型,以提高其在密集预测CV任务中的性能。Upstream-Amateur的框架受益于这些内在的监督,DeCLIP-ResNet50可以在ImageNet上首先达到60.4%的零样本准确率。这比CLIP-ResNet50高0.8%,使用的数据减少81%。当转移到下游任务时,DeCLIP-ResNet50在11个视觉数据集中的8个上优于CLIP。更重要的是,完成的Upstream-Amateur为后续的训练阶段提供了一个高起点。第二阶段,培养专业能力,称为“专家模型”。在Up-A阶段获得的基础模型在一般视觉识别问题上表现出优异的性能。但要完全掌握检测、分割等更具体的任务,需要在每个任务中进行更专业的预训练,这就导致了第二阶段专家模型的到来。对于每个专家,Scholar采用简单的多头设计,其中每个头都是一个特定于数据集的子网络,从一个共同的共享“主干”分支出来。如Up-E(C)、Up-E(D)和Up-E(S)分别用于图像分类、目标检测和语义分割。第三阶段,培养组合能力,称为“通才模式”。上面所说的多任务是指一个视觉问题(如分类)针对不同的数据集(如ImageNet和CIFAR),或者是针对一个数据集的多个视觉问题(如分类和检测)。但关键是如何将专家整合到一个统一的模型中,得到一个更通用的视觉模型。因此,在预训练“专家”阶段后,采用“通才”作为第三个预训练阶段,进一步统一特征表示。“学者”提出了一种称为“混合参数共享”的新范式,以开发一种称为“通才”的通才模型。具体来说,由于专家获取的知识是相互关联的,当专家的特征被融合成共享表示时,基于软共享的跨任务知识迁移方法和基于硬共享的通用表示学习方法可以用于不同的领域引入了任务冲突情况下专家之间的信息传递(featuretransfer),从而进一步提高了多任务训练模型(专家)的性能,即“通才”能力。在结构上,通才模型是所有专家的互联版本,因此每个“专家骨干”都可以称为“通才分支”。此外,我们还可以根据训练相应专家的任务将通才中的每个分支划分为图像、补丁和像素。但无论是软分享还是硬分享,都意味着从专家模式到通才模式的跳跃。在经历了前三个训练阶段模块之后,我们终于来到了最后的任务迁移阶段(Adaptation)。这个阶段属于技术链的下游,用来解决各种不同类型的任务,这也是最考验“学者”举一反三能力的时刻。它需要将之前学到的一般知识应用到这个阶段不同的具体任务中。在此之前,很多迁移学习方法确实取得了很大的进步,但问题是这些方法既没有利用上游预训练中的隐含信息,也没有考虑下游数据在few-shot场景下的不足。因此,《学者》提出了一种Multi-stageFine-tuning(MF)方法,在数据较少的情况下缓解传输难度,然后通过将上游数据编码成生成模型,即VQ-GAN,predicted将训练好的模型转移到多个任务和领域,而无需每次都使用上游数据,这也让“学者”更具通用性和可扩展性。多阶段微调(MF)概述:VQ-GAN模型首先在第一阶段使用上游数据进行训练,然后在第二阶段由其重构下游数据。此后,第三阶段仅针对添加任务的特定参数对重新表示的图像进行训练,第四阶段使用下游数据微调整个模型。至此,一个具有持续学习能力的通用视觉模型终于诞生了。至于具体的改进,还是看实验数据比较直观吧!3抓住视野领域的四大任务在视野领域,有很多任务,主流的任务包括分类、物体检测、语义分割、深度估计四大类。在这四项任务中,最强大的视觉模型是OpenAI去年发布的CLIP模型。但相比之下,“学者”在准确性和数据使用效率上都有所提升。(1)准确率表现通过对“学者”在GV-B上训练的模型进行评估比较,发现多阶段预训练后的MetaNet具有优异的准确率表现。在ImageNet等26个最具代表性的下游场景中,「学者」在分类、目标检测、语义分割和深度估计四大任务中平均错误率降低了40.2%、47.3%、34.8%和9.4%。%。Scholar(INTERN)和CLIP-R50x16在不同样本量上的性能对比,正确率展示(2)数据使用效率“Scholar”在数据效率上的提升尤为明显:只需要下游数据的1/10exceedCLIP是基于全下游数据训练的准确性。以GV-B中CLIP-R50x16和Up-GMN-B15的评测对比为例,对分类、目标检测、语义分割、深度估计等26个下游任务数据集进行评测。仅使用用10%的数据训练的Up-GMN-B15模型在大多数数据集上的准确性表现优于使用所有训练数据的CLIP-R50。这表明经过多阶段预训练的MetaNet具有很强的泛化能力,仅需少量训练样本即可达到SOTA精度性能。在下游视觉场景下,小样本训练带来极高的训练速度和极低的训练成本。例如,在识别花种的任务上,“书生”只需要每种花的两个训练样本就可以达到99.7%的准确率。这个花卉数据集由102种英国常见花卉组成,每个类别有40到258张图像。涉及很多比例、姿势和光照变化。102类花数据集:https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html4通用视觉平台,已经正式开源了这么强大的通用视觉训练模型有已正式开源!更重要的是,连同上面提到的标签数据集、网络结构和评估基准,都在OpenGVLab中进行了封装和开源。除了MetaNet,网络结构还包括常用的ResNet、MobileNet、ViT、EfficientNet等,以满足不同场景的应用,为计算机视觉赋能。然而,《书生》的布局并不止于此。OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab共同打造开源系统OpenXLab,持续推动通用人工智能的技术突破和生态建设。一位使用过该开源平台的自动驾驶算法研究人员表示:“树生系列模型从可移动、可部署的小型模型到超大规模自研结构,都给行业带来了希望,尤其是它的收敛速度,大大节省了培训成本,是技术落地的一大助推器。”不仅在自动驾驶领域,在智慧城市、智慧医疗、智慧交通等万千智能领域,都将获得普世视野.模式带来的技术红利。一位腾讯研究员称赞OpenGVLab:“这么大的作品能开源出来真是业界良心,简单使用后,确实比CLIP更细粒度(higherfine-grained)。”来自学术界的师生也对此表达了自己的感想:“OpenGVLab集成了大量不同量级的state-of-the-art(advanced)模型,使用起来更方便,省去了繁琐研究不同领域的麻烦。代码库和不同的模型。”换句话说,当那些代码和公式脱去枯燥的外衣,人们就会发现真正的创造力。而这也是技术创新和平台开源的魅力所在。说得再近一点,如果用这种通用视觉模型来玩游戏,奖金高到飞起来!在科技生产力的道路上,又一个致富小窍门诞生了!目前,《学者》技术报告《INTERN: A New Learning Paradigm Towards General Vision》已经在arXiv平台发布。论文地址:arxiv.org/abs/2111.08687
