自监督学习真的是迈向AGI的关键一步?Meta首席人工智能科学家YannLeCun在谈到“此时此刻要采取的具体措施”时,并没有忘记长期目标。“我们想要制造像动物和人类一样学习的智能机器,”他在接受采访时说。近年来,Meta发表了一系列关于人工智能系统自我监督学习(SSL)的论文。LeCun坚信SSL是AI系统的必要先决条件,可以帮助它们构建世界模型,以获得类似人类的能力,例如理性、常识以及将技能和知识从一种环境转移到另一种环境的能力。他们的新论文展示了一种称为屏蔽自动编码器(MAE)的自我监督系统如何学习从非常零散、不完整的数据中重建图像、视频甚至音频。虽然MAE不是一个新想法,但Meta已将这项工作扩展到新领域。LeCun说,通过研究如何预测缺失数据,无论是静止图像还是视频或音频序列,MAE系统正在构建一个世界模型。“如果它能预测视频中会发生什么,它就必须明白世界是三维的,有些物体是无生命的,不会自行移动,而其他物体是有生命的,很难预测,直到预测到”活人的复杂行为。”一旦人工智能系统有了一个准确的世界模型,它就可以使用这个模型来计划行动。“智能的本质是学习预测,”LeCun说。虽然他没有声称Meta的MAE系统接近AGI,他认为这是迈向AGI的重要一步。但并非所有人都同意Meta的研究人员走在通往AGI的正确道路上。YoshuaBengio有时会与LeCun就AI中的重要想法进行友好辩论。在给IEEESpectrum的电子邮件中,Bengio阐述了Bengio写道:“我真的不认为我们目前的方法(无论是否自我监督)足以弥合人工智能和人类智能之间的差距。”Bengio同意LeCun的观点,即对世界进行推理的能力是智能的核心要素,但他的团队关注的不是可以预测的模型,而是可以表达知识的模型。他指出,这样的模型将使我们能够结合这些知识来解决新问题、执行反事实模拟或研究可能的未来。Bengio的团队开发了一种新的神经网络框架,与从事端到端学习的LeCun所青睐的框架相比,它在本质上更加模块化。流行的TransformerMeta的MAE建立在称为Transformer的神经网络架构之上。这种架构最初流行于自然语言处理领域,随后扩展到计算机视觉等众多领域。当然,Meta并不是第一个在视觉任务中成功使用Transformer的团队。MetaAI研究员RossGirshick表示,谷歌对VisualTransformer(ViT)的研究启发了Meta的团队,“采用ViT架构帮助(我们)消除了实验过程中遇到的一些障碍。”Girshick是Meta关于MAE系统的第一篇论文的作者之一,该论文由KaimingHe领导,他们描述了一种非常简单的方法:屏蔽输入图像的随机块并重建缺失的像素。该模型的训练类似于BERT和其他一些基于Transformer的语言模型,研究人员会向它们展示庞大的文本数据库,但有些词会丢失,或被“屏蔽”。模型需要自己预测缺失的词,然后将被屏蔽的词解屏蔽,以便模型检查其工作并更新其参数。这个过程永远重复。Girshick解释说,为了在视觉上做类似的事情,团队将图像分解成小块,然后屏蔽一些小块并要求MAE系统预测图像的缺失部分。该团队的突破之一是意识到屏蔽大部分图像会产生最好的结果,这是与语言转换器的一个关键区别,语言转换器可能只屏蔽15%的单词。“语言是一个极其密集和高效的交流系统,每个符号都包含很多意义,”Girshick说,“但是图像——这些来自自然界的信号——并不是为了消除冗余而构建的。所以我们在创建JPG图像。”MetaAI的研究人员试验了需要屏蔽多少图像才能获得最佳结果。通过屏蔽图像中超过75%的补丁,他们消除了图像中的冗余,否则这些冗余会使任务对于训练来说过于微不足道,吉尔希克解释道。他们的两部分MAE系统首先使用编码器从训练数据集中学习像素之间的关系,然后解码器尽最大努力从蒙版图像重建原始图像。完成此训练方案后,还可以针对分类和目标检测等视觉任务对编码器进行微调。“最终让我们兴奋的是,我们看到了这个模型在下游任务上的结果,”Girshick说。当将编码器用于物体识别等任务时,“我们看到了非常可观的收益。”他指出,继续按比例放大模型会带来更好的性能,这是未来模型的一个潜在方向,因为SSL“有可能在不需要手动注释的情况下使用大量数据。”全力以赴从大量未经过滤的数据集中学习可能是Meta改进SSL结果的策略,但它也是一种越来越有争议的方法。TimnitGebru等人工智能伦理研究人员呼吁人们注意大型语言模型学习的未经整理的数据集中固有的偏见,这有时会导致灾难性的结果。视频和音频的自监督学习在视频MAE系统中,屏蔽器覆盖每个视频帧的95%,因为帧之间的相似性意味着视频信号比静态图像具有更多冗余。Meta研究员ChristophFeichtenhofer表示,就视频而言,MAE方法的优势之一是视频通常是计算密集型的,而MAE通过屏蔽掉每帧高达95%的部分,可将计算成本降低高达95%。这些实验中使用的视频片段只有几秒钟长,但Feichtenhofer说用更长的视频训练AI系统是一个非常活跃的研究课题。想象一下,你有一个虚拟助手,他有你家的视频,可以告诉你一个小时前你把钥匙放在哪里了。更直接地说,我们可以想象图像和视频系统都可用于Facebook和Instagram内容审核所需的分类任务,Feichtenhofer说,“完整性”是一种可能的应用。“我们正在与产品团队讨论,但这很新,我们还没有任何具体的项目。”对于音频MAE工作,MetaAI的团队表示他们将很快在arXiv上发布他们的研究成果。他们找到了一个应用屏蔽技术的巧妙方法。他们将声音文件转换为频谱图,这是信号中频谱的可视化表示,然后屏蔽掉部分图像以进行训练。重建的音频令人印象深刻,尽管该模型只能处理剪辑几秒钟的时刻。音频系统研究员BernieHuang表示,这项研究的潜在应用包括分类任务、通过在数据包丢失时填充丢失的音频来帮助IP语音传输(VoIP),或者寻找更有效的压缩音频文件方法。Meta一直在做像这些MAE模型一样的开源AI研究,也为AI社区提供预训练的大型语言模型。但批评人士指出,尽管Meta对研究如此开放,但它并没有开放其核心业务算法——那些管理新闻提要、推荐和广告投放的算法——以供研究。
