当前位置: 首页 > 科技观察

Nvidia:从图像中提取概念,然后生成新图像,网友:AI终于学会了人类幼崽的本事

时间:2023-03-18 18:27:32 科技观察

早在2017年,就有网友抱怨:2岁的孩子只要看过一张犀牛的照片,就能认出其他图片中不同姿势、视角和风格的卡通犀牛,而AI做不到。直到现在,这一点终于被科学家攻克了!最新研究发现,只要将3-5张图片喂给AI,AI就可以抽象出图片中的物体或风格,然后随机生成个性化的新图片。有网友评论:很酷,这可能是我这几个月看到的最好的项目了。它是如何工作的?我们先来看几个例子。当您上传3张不同角度的陶瓷猫照片时,您可能会获得以下4张新图片:两只在船上钓鱼的陶瓷猫、一只陶瓷猫书包、一只Banksy猫和一只陶瓷猫主题饭盒。同样的例子还有artwork:armorvillain:bowl:AI不仅可以提取图像中的物体,还可以生成特定风格的新图像。例如下图中,AI提取了输入图像的绘画风格,并生成了一系列该风格的新绘画。更神奇的是,它还可以将两组输入图像进行组合,提取一组图像中的物体,再提取另一组图像的风格,将两者结合生成一张全新的图像。此外,通过这个功能,你还可以从一些经典图片“入手”,并为它们添加一些新的元素。那么,如此神奇的功能背后的原理是什么?虽然近两年大规模的文本-图像模型,如DALL·E、CLIP、GLIDE等,都被证明具有很强的自然语言推理能力。但有一件事:如果用户要求某些特定的东西,比如生成一张我最喜欢的童年玩具的新照片,或者将孩子的涂鸦变成一件艺术品,这些大型模型就很难做到。为了应对这一挑战,给定一个固定的、预训练的文本图像模型和一小组描述概念的图像(用户输入的3-5张图像),目标是找到单个词嵌入,从小集。由于这种嵌入是通过优化过程发现的,因此称为“文本反转”。具体来说,首先将用户输入图像中的物体或风格抽象化并转化为伪词(S*),然后可以将其视为任何其他词,最后根据由“组成的自然句子”生成个性化的新图像S?”,例如:“一张S?在沙滩上的照片”,“一幅S?挂在墙上的油画”,“用S2?的风格画一张S1?的图”。值得注意的是,由于本研究采用了小规模的精选数据集,因此在生成图像时可以有效避免刻板印象。例如下图中,在提示“医生”时,其他模型倾向于生成白种人和男性的图像,而该模型生成的图像则增加了女性和其他种族的数量。目前该项目的代码和数据已经开源,感兴趣的小伙伴可以关注。作者从特拉维夫大学和NVIDIA的研究团队介绍了这篇论文。作者是RinonGal、YuvalAlaluf、YuvalAtzmon、OrPatashnik、AmitH.Bermano、GalChechik、DanielCohen-Or。第一作者RinonGal是特拉维夫大学计算机科学博士生,师从DanielCohen-Or和AmitBermano,主要研究方向是在减少监督条件下生成2D和3D模型,目前正在在NVIDIA工作。