当前位置: 首页 > 科技观察

AI生成模型五花八门,谁好谁坏?CMU朱俊彦团队推出自动匹配排名系统

时间:2023-03-12 20:19:42 科技观察

最近的生成式AI可谓是非常火热,新的预训练图像生成模型层出不穷,让人眼花缭乱。无论是肖像、风景还是卡通、艺术家特定的风格元素等等,每个模型都有其擅长生成的东西。在众多模型中,如何快速找到最能满足你创作欲望的模型?近日,卡内基梅隆大学助理教授朱俊彦等人首次提出基于内容的模型搜索算法,让你一键搜索最匹配的深度图生成模型。论文地址:https://arxiv.org/pdf/2210.03116.pdf在团队基于这套模型搜索算法开发的在线模型共享和搜索平台Modelverse上,可以输入文字、图片、草图,并给出要搜索的模型找到最匹配或相似的相关模型。Modelverse平台地址:https://modelverse.cs.cmu.edu/图例:输入文字(如“非洲动物”)、图片(如风景)、草图(如站立猫的草图)或确定模型,输出排名靠前的相关模型(第二行和第三行)。例如,输入文本“face”并得到以下结果:输入猫图像:输入马的草图:1基于内容的模型搜索与传统的多媒体搜索一样,模型搜索可帮助用户找到最适合其特定需求的模型。然而,基于内容的模型搜索任务有其特殊的难点:判断模型是否可以生成特定图像是一个比较难计算的问题,而许多深度生成模型并没有提供有效的密度估计方法,它们不支持跨模态相似度的评估。蒙特卡洛基于采样的方法会使模型搜索过程非常缓慢。为此,朱俊彦团队提出了一种新的模型搜索系统。每个生成模型都会产生图像分布,因此作者将搜索问题作为一种优化来处理,以最大化生成与给定模型的查询匹配的概率。如下图所示,系统由预缓存阶段(a,b)和推理阶段(c)组成。图例:模型搜索方法概述给定一组模型,(a)首先为每个模型生成50K个样本;(b)然后将图像编码为图像特征,并计算每个模型的一阶和二阶特征统计量。统计数据缓存在系统中以提高效率;(c)在推理阶段,支持不同模态的查询,包括图像、草图、文本描述、另一个生成模型或这些查询类型的组合。作者在这里引入了近似值,将查询编码为特征向量,并通过评估查询特征与每个模型的统计数据之间的相似性来检索具有最佳相似性度量的模型。2模型搜索效果作者对算法进行了评估,并对133个深度生成模型(包括GAN、扩散模型和自回归模型)进行了消融实验。与MonteCarlo基线相比,此方法可实现更高效的搜索,在0.08毫秒内实现5倍加速,同时保持高精度。通过比较模型检索结果,我们还可以大致了解哪些模型可以为不同的查询输入生成更高质量的图像。例如下图是模型检索结果的对比。图注:模型检索结果示例最上面一行是图像查询,输入一幅静物画,检索出相关艺术风格的模型,得到排名第一的StyleGAN2模型和排名最后的Vision-aidedGAN模型。中间一行是草图查询,输入马和教堂的草图,得到ADM、ProGAN等模型。最下面一行是文本查询,输入“personwearingglasses”和“talkingbird”,分别检索排名靠前的GANSketch模型和Self-DistilledGAN模型。作者还发现了跨不同网络特征空间的模型性能差异。如下图所示,当输入图像查询时,结果显示三个网络CLIP、DINO、Inception都具有相似的性能;而在输入草图查询时,CLIP的效果明显更好,而DINO和Inception不太适合给定的查询,它们在艺术风格的模型上表现更好。图例:不同网络特征空间中基于图像和草图的模型检索的比较此外,本文提出的模型搜索算法还可以支持多种应用,包括多模态用户查询、相似模型查询、真实图像重建和编辑等.例如,多模态查询可以帮助细化模型搜索。当只有“尼古拉斯·凯奇”图片时,只能检索人脸模型;但是当“NicolasCage”和“dog”都被用作输入时,它可以被检索到。生成“NicolasCagedog”图像的StyleGAN-NADA模型。(如下图)Legend:Multi-modaluserquery当输入是人脸模型时,可以检索到更多的生成人脸模型,类别保持相似。(如下图所示)图例:相似度模型查询给定真实人脸的查询图像,使用排名较高的模型可以获得更准确的图像重建。下图是使用不同排名模型的CelebA-HQ和LSUN教堂图像的图像逆映射示例。图例:将真实图像投影到检索到的StyleGAN2模型。在编辑真实图像的任务中,不同的模型表现不同。在下图中,使用#1基于图像的模型检索算法对真实图像进行逆向映射,然后使用GANspace进行编辑,将浮世绘图像中皱眉的人脸变成微笑的人脸。图例:编辑真实图像这项研究证明了模型搜索的可行性,对于文本、音频或其他内容生成的模型搜索,还有很大的研究空间。但到目前为止,这项工作中提出的方法有一定的局限性。例如,在查询特定草图时,有时会匹配到抽象形状的模型;有时在进行多模态查询时,只能检索到单个模型,系统可能难以处理像狗这样的图像+“像这样的大型多模态查询”。(如下图)图例:失败案例此外,在其模型搜索平台上,检索到的模型列表不会根据其效果自动排序,例如生成图像的分辨率、保真度和匹配度。对模型进行评估并给出排名,更方便用户搜索,也可以帮助用户更好地了解当前一代模型的优劣。期待这方面的后续工作。

猜你喜欢