当前位置: 首页 > 科技观察

Facebook新AI模型SEER实现自监督学习,LeCun称赞为最有前途

时间:2023-03-12 02:57:41 科技观察

本文转载自微信公众号“新智元”,作者新智元。转载本文请联系新智元公众号。没有标签的自我分析数据!Facebook的新AI模型正在彻底改变计算机视觉?刚刚,Facebook公布了一个在10亿张图片上训练的AI模型——SEER,Self-supervised的缩写。该模型包含10亿个参数,可以在标签的帮助下识别图像中的对象,并在一系列计算机视觉基准测试中取得了最先进的结果。请注意,大多数计算机视觉模型都是从标记的数据集中学习的。另一方面,Facebook的最新模型通过公开数据部分之间的关??系从数据中生成标签。这一步骤被认为对于有一天实现最终的人类智能至关重要。新的AI模型SEER将彻底改变计算机视觉?参数一直是机器学习系统的基本组成部分,是源自历史训练数据的模型的一部分。人工智能的未来在于能够独立于带注释的数据集,根据给定的任何信息进行推理。给定文本、图像或其他类型的数据,AI完全能够识别照片中的对象、解释文本或执行要求它执行的任何其他任务。Facebook首席科学家YannLeCun表示,这是构建具有背景知识或“常识”的机器以解决远远超出当今人工智能的任务的最有前途的方法之一。我们已经看到了自然语言处理(NLP)领域的重大进步。其中,超大型模型在大量文本上的自监督预训练在自然语言处理方面取得了重大突破。现在,Facebook声称其SEER计算机视觉模型离这一目标又近了一步。它可以在没有注释的情况下从互联网上的任何一组随机图像中学习。视觉的自我监督是一项具有挑战性的任务。对于文本,语义概念可以分解成离散的词,但对于图像,模型必须自己推断出哪个像素属于哪个概念。相同的概念往往会在不同的图像之间发生变化,这使得问题更具挑战性。因此,要掌握单一概念的变化,需要查看大量不同的图像。研究人员使用Instagram公开的10亿张图片进行模型训练。他们发现,人工智能系统处理复杂的图像数据至少需要两个核心算法:一个可以从大量随机图像中学习而无需任何元数据或注释算法;第二个是足够大的卷积神经网络(ConvNet),可以从该数据中捕获和学习所有视觉概念。1980年代首次提出的卷积神经网络受到生物过程的启发,因为模型中组件之间的连接模式类似于视觉皮层。SEER:10亿张图像,无标签,自训练数据集SEER模型结合了最近的架构系列“RegNet”和在线自监督训练“SwAV”,以使用10亿个参数扩展训练数十亿张随机图像。研究团队采用了一种名为SwAV的新算法。它起源于FAIR的研究,后来被应用于自监督学习。SwAV采用在线聚类的方法,将具有相似视觉概念的图像快速分组,可以利用图像的相似性提高自监督学习的高级水平,训练时间减少6倍。这种规模的训练模型还需要一种在运行时和内存方面高效且不损失准确性的模型架构。幸运的是,FAIR最近在架构设计领域的一项创新催生了一个名为RegNets的新模型系列,可以完美满足这些需求。RegNet模型能够扩展到数十亿甚至数万亿个参数,可以针对不同的运行时和内存限制进行调整。研究团队将SEER在随机IG图像上的预训练与在ImageNET上的预训练进行了比较,结果表明无监督特征比监督特征平均高出2%。为SEER技术添加最后一块砖是VISSL自监督学习通用库。VISSLforSEER是一个开源的通用库,它使更广泛的社区可以访问图像的自我监督学习实验。VISSL是一个基于PyTorch的库,它允许使用各种现代方法在小规模和大规模上进行自我监督训练。VISSL还包括一个广泛的基准套件和一个包含60多个预训练模型的模型库,使研究人员能够比较几种现代自我监督方法。VISSL通过集成多种现有算法、减少每个GPU的内存需求并提高任何给定模型的训练速度来实现大规模自监督学习。SEER的自监督模型建立在与VISSL相同的核心工具上,结合PyTorch的自定义数据加载器,具有比默认更高的数据吞吐量。自我监督学习的未来Facebook表示,在对10亿张公共instagram图片进行预训练后,SEER的表现优于最先进的自我监督模型。SEER还在对象检测分析、分割和图像分类等任务上取得了最先进的结果。在流行的ImageNet10%数据集上训练时,SEER仍然达到77.9%的准确率。当仅对1%的数据集进行训练时,SEER的准确率为60.5%。接下来,Facebook将发布SEER背后的一些技术,但不会发布算法本身,因为它是使用Instagram用户的数据进行训练的。麻省理工学院计算感知与认知实验室主任AudeOliva表示,这种方法将使我们能够实践更雄心勃勃的视觉识别任务,但像SEER这样的尖端AI算法的庞大规模和复杂性也带来了问题。SEER可能有数十亿或数万亿个神经连接或参数,而此类算法需要大量的计算能力,从而更加紧张可用的芯片供应。Facebook的团队使用了带有32GBRAM的V100NvidiaGPU,随着模型大小的增加,模型必须适应可用的RAM。自我监督学习长期以来一直是FacebookAI的重点,因为它使机器能够直接从世界上可用的大量信息中学习,而不仅仅是从专门为AI研究创建的训练数据中学习。自我监督学习对计算机视觉的未来有着不可思议的影响,就像它在其他研究领域所做的那样。消除对人工注释和元数据的需求,使计算机视觉社区能够处理更大、更多样化的数据集。Facebook研究人员表示:“这一突破可能会在计算机视觉领域引发一场自我监督学习革命。”参考:https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/