中国人民大学高瓴人工智能学院Nature子刊:尝试使用多模态基础模型迈向通用人工智能共同通讯作者发表题为“TowardsArtificialGeneralIntelligenceviaaMultimodalFoundationModel》在国际综合性期刊《自然·通讯》(英文名:NatureCommunications,简称NatCommun)。文章第一作者为博士。学生费南义。这项工作试图将多模态基础模型用于通用人工智能,并将对神经科学和医疗保健等各种AI+领域产生广泛影响。这篇文章是对这篇论文的解读。论文链接:https://www.nature.com/articles/s41467-022-30761-2代码链接:https://github.com/neilfei/brivl-nmi人工智能的基本目标是模仿核心认知人类的感知、记忆、推理等活动。尽管许多人工智能算法或模型在各个研究领域取得了巨大的成功,但大多数人工智能研究仍受限于获取大量标记数据或计算不足支持大规模数据培训的资源。仅限于获得单一的认知能力。为了克服这些限制并向通用人工智能迈出一步,我们开发了一种多模态(视觉语言)基础模型,即预训练模型,其灵感来自人脑对多模态信息的处理(图1a)。此外,为了让模型获得较强的泛化能力,我们建议训练数据中的图片和文本应该遵循弱语义??相关性的假设(如图1b所示),而不是图像区域的精细匹配和词(强语义相关),因为强语义相关假设会导致模型失去人们在给图片加字幕时所暗示的复杂情绪和想法。图1:基于弱语义关联假设的BriVL模型。A。我们的BriVL模型与人脑在处理视觉语言信息方面的比较。b.建模弱语义相关数据和建模强语义相关数据的比较。通过对从互联网上爬取的大规模图文数据进行训练,我们得到的多模态基础模型表现出了很强的泛化能力和想象能力。我们相信我们的工作代表了迈向通用人工智能的重要(尽管可能很小)一步,并将对神经科学和医疗保健等各种AI+领域产生广泛影响。方法我们开发了一个大规模多模态基本模型,用于对海量多模态数据进行自我监督训练,并将其命名为BriVL(Bridging-Vision-and-Language)。首先,我们使用从Internet构建的大规模多源图文数据集,称为弱语义关联数据集(WSCD)。WSCD从网络上的多个来源收集中文图像文本对,包括新闻、百科全书和社交媒体。我们在WSCD中只过滤色情和敏感数据,不对原始数据进行任何形式的编辑和修改,以保持其自然的数据分布。WSCD总共拥有约6.5亿个图文对,涵盖体育、日常生活和电影等多个主题。其次,对于我们的网络架构,由于图像和文本之间不一定存在细粒度的区域词匹配,我们舍弃了耗时的对象检测器,采用了简单的双塔架构,因此能够通过两个独立的编码器进行编码图像和文本输入(图2)。双塔结构在推理过程中具有明显的效率优势,因为可以在查询之前对候选集的特征进行计算和索引,满足实际应用的实时性要求。第三,随着大规模分布式训练技术和自监督学习的发展,可以用海量未标记的多模态数据训练模型。具体来说,为了对图像-文本对的弱相关性进行建模并学习统一的语义空间,我们设计了一种基于单模态对比学习方法MoCo的跨模态对比学习算法。如图2所示,我们的BriVL模型使用动量机制在不同的训练批次中动态维护负样本队列。通过这种方式,我们拥有相对大量的负样本(对对比学习至关重要),同时使用相对较小的batchsize来减少GPU的内存占用(即GPU资源节约)。图2:用于大规模多模态预训练的BriVL模型示意图。主要结果神经网络可视化当我们听到单词或描述性句子时,脑海中会浮现一些场景。对于我们的BriVL,在对如此大量的弱相关图像文本对进行预训练之后,我们很好奇它在给定文本时会想象什么。具体来说,我们首先输入一段文本,通过BriVL的文本编码器获得其文本嵌入。然后我们随机初始化一个有噪声的图像,并通过图像编码器得到它的特征嵌入。由于输入图像是随机初始化的,其特征必然与输入文本的特征不一致。因此,我们定义了匹配两个特征嵌入的目标,并通过反向传播更新输入图像。生成的图像清楚地显示了BriVL对输入文本的看法。在这里,我们不使用任何额外的模块或数据,预训练的BriVL在整个可视化过程中也被冻结。我们首先介绍BriVL想象一些高级语义概念的能力(图3)。可以看出,虽然这些概念非常抽象,但可视化可以将它们以具体的形式表现出来(例如,“自然”:像草一样的植物;“时间”:一个时钟;“科学”:一张戴着眼镜的脸和一个Erlenmeyerflask;“梦境”:云、通往门的桥和梦幻般的氛围)。这种将抽象概念概括为一系列具体对象的能力证明了我们仅使用弱语义相关数据进行多模态预训练的有效性。图3:BriVL模型对抽象概念的可视化。在图4中,我们展示了BriVL如何想象句子。BriVL的“太阳在云层后面”的愿景不仅从字面上体现了云层后面的太阳,而且似乎表现出海上的危险情况(左侧的船状物体和波浪),表达了这句话的隐喻。在“像夏天的花朵一样生长”可视化中,我们可以看到一丛花。接下来两个场景的更复杂的文本输入都来自中国古诗词,它们的语法与训练集中的绝大多数文本完全不同。看来BriVL也很懂:“竹外桃花三两枝”,可见竹外桃花;山上树木遮蔽夕阳,前方江上有小舟。总的来说,我们发现BriVL即使在复杂句子的提示下也具有很强的想象力。图4:BriVL模型对中文句子的想象。在图5中,几个类似的文本用于BriVL中的神经网络可视化。对于“有森林的山”,图像中有更多的绿色区域;对于“有石头的山”,图像中有更多的石头;对于“雪山”,中间树木周围的地面都是白色或蓝色;“有瀑布的山”,可以看到蓝色的水在下降,甚至还有一些水汽。这些可视化表明BriVL可以准确地理解和想象山地修饰符。图5:BriVL模型的“山与……”愿景。文本生成的图神经网络可视化很简单,但有时可能难以解释。因此,我们开发了另一种可视化/可解释性方法,使BriVL的想象内容更容易为我们人类所理解。具体来说,我们利用VQGAN在BriVL的指导下生成图像,因为在ImageNet数据集上预训练的VQGAN非常擅长生成逼真的图像。我们首先随机获取一个token序列,并从预训练的VQGAN中获取生成的图像。接下来,我们将生成的图像输入BriVL的图像编码器,同时将一段文本输入文本编码器。最后,我们定义图像和文本嵌入之间的匹配目标,并通过反向传播更新初始标记序列。与神经网络可视化一样,VQGAN和BriVL都在生成过程中被冻结。为了进行比较,我们还展示了由OpenAI的CLIP模型而不是BriVL生成的图像。我们首先选择了四个文本输入,并分别在图6和图7中显示了CLIP和我们的BriVL文本生成图的结果。CLIP和BriVL都能很好地理解文本,但我们也观察到两个主要差异。首先,CLIP生成的图像中出现了卡通风格的元素,而BriVL生成的图像更加逼真自然。其次,CLIP倾向于简单地将元素放在一起,而BriVL生成的图像更全局统一。第一个差异可能是由于CLIP和BriVL使用的训练数据不同。我们训练数据中的图片是从网上抓取的(大部分是真实照片),而CLIP的训练数据中可能会有一定数量的卡通图片。第二个差异可能是由于CLIP使用语义相关性强(按词过滤)的图像-文本对,而我们使用相关性弱的数据。这意味着在多模态预训练期间,CLIP更有可能学习特定对象与单词/短语之间的对应关系,而BriVL则尝试将每个图像与给定的文本作为一个整体来理解。图6:使用VQGAN从文本生成图形的CLIP(带ResNet-50x4)示例。图7:我们使用VQGAN实现文本生成图的BriVL示例。我们还考虑了一项更具挑战性的任务,即从多个连贯的句子生成一系列图像。如图8所示,虽然每张图片都是独立生成的,但我们可以看到四张图片在视觉上是连贯的,风格一致。这证明了BriVL模型的另一个优势:虽然图像中的环境和背景很难在相关文本中明确提及,但在我们的大规模多模态预训练中它们并没有被忽略。图8:我们的BriVL与VQGAN的示例,用于一系列连贯的内容生成。在图9中,我们选取??了一些人类很少见到的概念/场景(比如“燃烧的大海”和“发光的森林”),甚至是那些在现实生活中不存在的概念/场景(比如“赛博朋克之城”和“云端城堡”)。这证明BriVL的优越性能并不是来自对预训练数据的过拟合,因为这里输入的概念/场景在现实生活中根本不存在(当然预训练数据集中很可能不存在).此外,这些生成的示例再次证实了在弱语义相关数据上预训练BriVL的优势(因为细粒度区域词对齐削弱了BriVL的想象能力)。图9:更多BriVL文本生成图结果,其中概念/场景不常被人类看到,甚至在现实生活中不存在。此外,我们还将BriVL应用于遥感图像零样本分类、中文新闻零样本分类、视觉问答等多个下游任务,取得了一些有趣的结果。有关详细信息,请参阅我们的论文原文。结论与讨论我们开发了一个名为BriVL的大规模多模态基础模型,该模型在6.5亿弱语义相关图像上进行了训练。我们通过神经网络可视化和文本生成图可视化对齐的图文嵌入空间。此外,在其他下游任务上的实验也展示了BriVL的跨域学习/迁移能力以及多模态学习相对于单模态学习的优势。特别是,我们发现BriVL似乎获得了一些想象力和推理能力。我们认为,这些优势主要来自BriVL坚持的弱语义关联假设。也就是说,我们的BriVL通过在弱相关的图像文本对中挖掘复杂的人类情感和思想,变得更具认知能力。我们相信,我们迈向通用人工智能的这一步,不仅对人工智能领域本身,而且对各个人工智能+领域,都会产生广泛的影响。对于人工智能研究,基于我们的GPU资源高效多模态预训练框架,研究人员可以轻松地将BriVL扩展到更大的量级和更多的模态,以获得更通用的基础模型。借助大规模多模态基础模型,研究人员也更容易探索新任务(尤其是那些没有足够人类注释的样本)。对于AI+领域,由于其强大的泛化能力,基础模型可以快速适应特定的工作环境。例如,在医疗保健领域,多模态基础模型可以充分利用病例的多模态数据,提高诊断的准确性;在神经科学领域,多模态基础模型甚至可能有助于发现多模态信息如何在人脑中融合的机制,因为人工神经网络比人脑中的真实神经系统更容易研究。尽管如此,多模态基础模型仍然面临一些风险和挑战。底层模型可能会学习关于某些事物的偏见和刻板印象,这些问题应该在模型训练之前小心处理,并在下游应用程序中进行监控和解决。此外,随着基础模型获得越来越多的能力,也必须小心被不怀好意的人滥用,以免对社会造成负面影响。此外,基础模型未来的研究也面临一些挑战:如何开发更深层次的模型可解释性工具,如何构建更多模态的预训练数据集,如何使用更有效的微调技术来整合基础模型适用于单个下游任务。论文作者:费南毅、卢志武、高以钊、杨国兴、霍宇奇、文靖远、卢昊宇、宋瑞华、高欣、向涛、孙浩、文吉荣;共同通讯作者为中国人民大学高瓴人工智能学院卢志武教授、孙浩副教授、文继荣教授。论文发表于国际综合性期刊《自然 · 通讯》(英文名:NatureCommunications,简称NatCommun)。本文由费南毅解读。
