当前位置: 首页 > 科技观察

如果让AI根据文字画“抽象画”,会是什么样子?|DeepMind的新算法

时间:2023-03-17 01:36:34 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。AI早就可以根据文字生成图片了。现在,不同于以往的“现实主义”,AI即将进入“抽象”艺术!话不多说,先放几张AI输入文字《丛林中的猛虎》绘制的作品:你有没有AI的“艺术细胞”?这离真正的抽象大师画有多远?这次AI生成的图像之所以和我们之前看到的GAN模型风格大不相同,是因为DeepMind使用了新的算法。该算法最终允许用户输入一串文本,而AI能够创造性地响应该字符串,输出解释该字符串的艺术作品。又如输入“云”生成如下作品:输入“一张脸”、“尖叫”、“一只猫”、“一张笑脸”、“着火的房子”、“一个人在走路”、“一个人”《森林中的森林》《老虎》、《洞窟壁画》:……这么了不起的新技能,有什么技术创新吗?NeuralVisualGrammarSystemandDualEncoder总的来说,DeepMind的算法在三个方面不同于使用GAN生成图像:首先,该算法的图像是“进化”的,而不是直接使用反向传播生成。使用进化搜索,可以生成独特的“审美输出”,这也允许人类对输出进行更多控制。其次,该算法不直接进化图像,而是进化出用于生成图像的视觉语法。这就是生成有趣的结构化图像的原因。最后,该算法使用经过预训练的多模态“评论家”,该评论家接受过来自网络的大量图像和字幕的训练。该算法“理解”单词视觉含义的能力很重要。下面详细谈谈用于图像进化的神经视觉语法系统和用于评估图像适应度的图文双编码器“评估器”。神经语法系统采用分层结构,极大地扩展了核心神经生成器的功能。它将用户输入的字符串输入顶层LSTM,后者为每个笔画分配一个中间输入字符串。这个中间输入字符串的行为很像原始输入字符串。然后将该中间字符串输入底层LSTM以输出最终图像的笔划描述。如下所示。例如,中间向量的第二个位置决定了编码的笔画是不透明的还是透明的。第三个位置决定是使用顶层指定的位置还是中间层指定的位置来确定笔划的原点。第四个位置决定笔划中要生成的行数。…为了起到判断的作用,需要一个打分机制,对图像和句子的相似度进行打分。为此,他们选择了Frome的双编码器方法,该方法最近在大量网络数据集上取得了巨大成功。这种双编码器模型由两个编码器组成,分别对文本和图像进行操作。该团队在ALIGN(大图像和嘈杂文本)数据集上对其进行了训练。视觉编码器基于NF-Net-F0模型,以224x224分辨率的RGB图像作为输入;文本编码器是一个80M参数的因果Transformer。保留单词顺序和大小写区分的文本编码器将为“JungleintheTiger”和“atigerinthejungle”生成不同的图像。此外,由于进化搜索,修剪过程可用于识别有助于图像得分(适应度)的关键标记。在整个进化过程中,还可以删除多余的标记,“调”出一个尽可能令人满意的图像。下图显示了“一棵苹果树”的明显修剪。可以改进:初始画布不必是空白那么这种技术的实际用途是什么?据团队介绍,它可用于辅助艺术创作、发明新的标记制作方法,或将其生成过程应用于3D模型。此外,画布背景的初始条件不必为空白。或许你可以从一张照片或已有的图像开始,在每次迭代中用不同的文字进行调整,最终让图像逐渐演变为层次更丰富的作品!当然,他们的算法也有一些需要改进的地方。生成的图像有时令人惊讶,但有时看起来平庸甚至混乱,导致由于过拟合而产生越来越抽象的作品。在让背景色演化得更丰富的同时,也降低了图像其他方面的多样性。目前,该算法还存在一些“偏差”。例如,当被要求生成“自画像”时,大多数肖像最终都是白人。