当前位置: 首页 > 科技观察

训练10亿张图片,Facebook的新AI模型或将给计算机视觉带来一场革命

时间:2023-03-21 18:33:30 科技观察

来一场“革命”。被称为SEER(SElf-SupERvised)的模型被输入了10亿张公开可用的Instagram图片,这些图片没有被手动标记。但即使没有AI算法训练中通常使用的标签和注释,SEER也能够自主训练数据集,随着时间的推移学习,并最终在对象检测等任务上达到最先进的准确性。图片来自FacebookAI这种被称为自我监督学习的方法在AI中得到了很好的应用:它由可以直接从给定信息中学习的系统组成,而不是依靠仔细标记的数据集来教它们如何执行识别对象等任务在照片或翻译文本中。自监督学习最近引起了很多关注,因为这意味着需要手工标记数据的工作要少得多,而这对大多数研究人员来说既费时又费力。自监督模型可以处理更大、更多样化的数据集,而无需管理它们。在一些领域,特别是自然语言处理,该方法已经取得了突破。在数量不断增加的未标记文本上训练算法使得问答、机器翻译、自然语言推理等应用取得了进展。相比之下,计算机视觉还没有完全进入自我监督学习革命。正如FacebookAIResearch的软件工程师PriyaGopal所解释的那样,SEER是该领域的首创。她告诉ZDNet:“与现有的在ImageNet数据集上训练的计算机视觉自我监督模型相比,SEER是第一个完全自我监督的计算机视觉模型,可以随机训练来自互联网的图像。”ImageNet是一个庞大的数据库,包含数百万张由研究人员标记的图像,并向更大的计算机视觉社区开放以推进AI。该项目的数据库被Facebook的研究人员用作评估SEER性能的基准,他们发现自我监督模型在低空摄影、物体检测、分割和图像分类。“通过仅对随机图像进行训练,SEER优于现有的自我监督模型,”戈亚尔说。这一结果表明,我们不需要像ImageNet这样精心策划的数据集,并且对随机图像进行自我监督学习可以产生非常高质量的模型。“随着自监督学习变得越来越复杂,研究人员的工作并非没有挑战。在文本方面,AI模型的任务是为单词赋予意义。但在图像方面,算法必须决定每个像素如何对应一个概念。”,同时考虑到不同图像中拍摄角度、视图和形状的差异。换句话说,研究人员需要大量数据,以及一种可以从这个复杂的信息池中推导出所有可能的视觉概念的工具。为了完成这项任务,Goyal和她的团队从FacebookAI在自我监督学习方面的现有工作中改编了一种名为SwAV的新算法,该算法将看起来相似的图像聚类到不同的组中。科学家们还设计了一种卷积网络,这是一种深度学习算法,可以模拟人脑中神经元的连接模式,并根据它们的重要性将它们分配给图像中的不同对象。借助instagram的10亿张图片数据,至少可以说是一套系统的规模很大。Facebook的团队使用了具有32GBRAM的V100NvidiaGPU,随着模型大小的增加,它必须使模型适合可用的RAM。但Goyal解释说,进一步的研究将有助于确保计算能力适应新系统。“随着我们在越来越多的GPU上训练模型,这些GPU之间的通信需要快速发生。可以开发软件来应对挑战由给定的内存和运行时间构成,”她说。虽然还有很多工作要做,但Goyal认为,在将SEER应用于现实世界的用例之前,不应低估它的潜力。技术的影响。她说:“有了SEER,我们现在可以在来自互联网的大量随机图像上训练大型模型,从而在计算机视觉方面取得更大的进步。”“这一突破可以在计算机视觉领域实现自我监督学习革命,类似于我们已经在自然语言处理文本中看到过。”在Facebook内部,SEER可用于各种计算机视觉任务,从自动生成图像描述到帮助识别违反政策的行为。公司,该技术还可以用于图像和元数据有限的领域,例如医学成像。Facebook的团队呼吁做更多的工作,将SEER推进到下一阶段的发展。作为研究的一部分,该团队开发了一个名为VISSL的多功能基于PyTorch的自监督学习库,它是开源的,鼓励更多AI社区成员测试该技术。