当前位置: 首页 > 科技观察

Facebook使用10亿张社交软件图片来训练新的AI算法

时间:2023-03-13 12:50:05 科技观察

Facebook的研究人员最近发布了一个新的人工智能模型SEER,它可以使用互联网上任意一组随机的、未标记的图像进行学习。Facebook的“突破”仍处于早期阶段,但团队预计它将引发计算机视觉领域的一场“革命”。SEER是SElf-SupERvised(自我监督[学习])的英文缩写。SEER训练使用了10亿张公共instagram图片,这些图片未经人工整理。即图片没有经过通常用于算法训练的标签和标注处理,但SEER在学习和处理数据的同时,仍然可以自主使用数据集,最终在物体检测等任务中达到最高准确率。SEER使用的方法称为“自我监督学习”。自监督学习在人工智能领域已经非常成熟。它可以直接从用于训练的信息创建学习系统,而不必依赖仔细标记的数据集来训练如何执行任务。、识别照片中的对象或翻译文本等任务。自我监督学习最近在科学界受到了很多关注,因为这种方法意味着对人工标记数据的需求要少得多,而人工标记数据是大多数研究人员不想做的一项费力且耗时的任务。同时,由于自监督模型不需要人工管理的数据集,因此它们可以利用更大、更多样化的数据集。在某些领域(特别是自然语言处理),自监督学习方法取得了突破性进展。许多在未标记文本上训练的算法已经在应用程序中取得了各种进步,例如问答、机器翻译和自然语言推理。相比之下,计算机视觉还没有完全接受自我监督学习革命。FacebookAIResearch的软件工程师PriyaGopal表示,SEER标志着计算机视觉领域的首创。她告诉记者,“SEER是第一个完全自监督的计算机视觉模型,它使用来自互联网的随机图像进行训练。相比之下,计算机视觉领域现有的自监督工作使用大量经过编辑的ImageNet数据集进行训练。”训练。”ImageNet实际上是一个由数百万张图像组成的大型数据库,这些图像已经被研究人员标记过。ImageNet向一般计算机视觉社区开放,以促进人工智能。发展。Facebook研究人员使用该项目的数据库作为评估SEER性能的基准,发现自我监督模型在弱光、对象检测、分割和图像分类等任务上的表现优于最先进的监督AI系统。“SEER优于现有的仅使用随机图像进行训练的自我监督模型,”Goyal说。“这个结果基本上表明,我们在计算机视觉中不需要像ImageNet这样精心策划的数据集。使用图像的随机自监督学习已经产生了非常高质量的模型。”由于自我监督学习所需的复杂程度,研究人员在这一领域的工作并非没有挑战。当涉及到文本时,人工智能模型要做的就是为单词赋予特定的含义;但对于图像,算法必须为每个像素分配一个对应的概念,同时还要考虑同一概念在不同图片中的各种变化。角度、视图和形状。换句话说,当研究人员处理图像时,他们需要大量的数据和模型,这些数据和模型可以从复杂的信息库中导出所有可能的视觉概念。为此,Goyal和她的团队基于FacebookAI自我监督学习的现有基础,开发了一种名为“SwAV”的新算法。SwAV算法将那些显示相似概念的图像分类为不同的组。Facebook科学家还设计了一个深度学习算法的卷积网络,可以模拟人脑中神经元的连接模式,并为图像中的不同对象分配不同的重要性。系统使用了10亿张instagram图的强大数据集,至少规模够大。Facebook团队使用了V100NvidiaGPU和32GB内存。模型大小增加后,团队不得不使用模型来适应可用内存。但Goyal解释说,研究的下一步将有助于确保计算能力能够适应新系统。“随着我们在越来越多的GPU上训练模型,GPU之间的通信需要足够快才能实现更快的训练,”她说。“可以通过开发定义明确的软件和研究技术来应对这些挑战。”,开发适用于特定内存和运行时预算的软件和技术。”因此,在SEER可以在实际用例中实施之前,还有一些工作要做。但Goyal认为,不应低估SEER技术的影响她说,“SEER技术让我们可以利用互联网上大量丰富的随机图像来训练大规模模型,从而可以在计算机视觉领域取得各种进展。”“这一突破可能会在计算机视觉领域引发一场自我监督学习革命,有点类似于我们在自然语言处理中看到的涉及文本的自我监督学习革命,”戈亚尔说。“SEER可在Facebook内部用于广泛的计算机视觉任务,包括自动生成图像描述、帮助识别违反政策的内容等。SEER技术在图像和元数据有限的领域也可以在Facebook之外发挥作用,比如医学影像。Facebook的团队呼吁做更多的工作来推动SEER进入下一阶段的发展。Facebook团队还开发了一个基于PyTorch的多用途库,可以用于自监督学习。这个库叫做“VISSL”,它已经开源,以鼓励更广泛的AI社区使用该技术进行测试。