当前位置: 首页 > 科技观察

Meta最新图像生成工具火了,它能把梦想变成现实!

时间:2023-03-12 23:00:09 科技观察

AI非常擅长绘画。最近,Meta还打造了一款AI“画家”——Make-A-Scene。你以为只是用文字生成一幅画那么简单吗?要知道,仅仅依靠文字描述有时是可以“翻车”的,比如谷歌前段时间推出的“艺术家”Parti。“一盘没有香蕉,旁边是一杯没有橙汁。”这一次,Make-A-Scene可以通过文字描述,加上草图,生成你想要的样子。上下左右、大小、形状等构图元素由你决定。连LeCun都出来宣传自己的产品了,创意更不用说了,关键是“可控”!Make-A-Scene到底有多厉害,一起来看看吧。Meta的神笔马良光说不是练的,是假的!让我们看看人们将如何使用Make-A-Scene来实现他们的想象力。研究团队将与知名人工智能艺术家进行Make-A-Scene演示。艺术家团队可谓是阵容强大,包括SofiaCrespo、ScottEaton、AlexanderReben和RefikAnadol等,这些大师在生成式人工智能的运用上有着亲身体验。研发团队要求这些艺术家在创作过程中使用Make-A-Scene,使用它并提供反馈。接下来,让我们欣赏一下大师们用Make-A-Scene创作的作品。例如,索菲亚·克雷斯波(SofiaCrespo)是一位专注于自然与科技交汇的艺术家。她喜欢想象以前从未存在过的人造生命形式,因此她使用Make-A-Scene的素描和文字提示功能来创造全新的“混合生物”。比如花形水母。Crespo可以凭借其自由绘画功能快速迭代新想法。她表示,Make-A-Scene将帮助艺术家发挥更大的创造力,让艺术家可以使用更直观的界面进行绘画。(花形水母)斯科特·伊顿(ScottEaton)是一位艺术家、教育家和创意技术专家,他的作品调查当代现状与技术之间的关系。他使用Make-A-Scene作为构图方式,通过不同的线索探索场景变化,例如使用“沙漠中沉没和腐烂的摩天大楼”等主题来强调气候危机。(沙漠中的摩天大楼)AlexanderReben是一位艺术家、研究员和机器人专家。他认为,如果能对输出有更多的控制,确实有助于表达自己的艺术意图。他将这些工具整合到他正在进行的系列中。对于媒体艺术家和导演RefikAnadol来说,该工具是激发想象力和更好地探索未知领域的一种方式。事实上,这个原型制作工具不仅仅适用于那些对艺术感兴趣的人。研究团队认为,Make-A-Scene可以帮助任何人更好地表达自己,包括那些艺术性较差的人。首先,研究团队向Metro员工提供了部分访问权限。他们正在测试Make-A-Scene体验并提供反馈。Mida的项目经理AndyBoyatzis使用Make-A-Scene与他两岁和四岁的孩子一起创作艺术。他们通过俏皮的图画将自己的想法和想象力变为现实。下面是他们的作品~一只五颜六色的雕塑猫~是不是很可爱呢?可这口气,实在是有些不忍直视,就像小孩子在把一大坨橡皮泥捏在一起。一只骑着火车的怪物熊。严重的是,密码恐惧症患者,快点绕道。看完这张图,小编可能会直接上楼。看这诡异的手臂,脸一样的身体,眼珠一样的轮子……一座山峰。说实话,这张图还是挺有艺术感的。但是你有没有觉得远处的山和近处的小火车完全不是一个风格呢?技术背后尽管目前的方法在文本和图像域之间提供了不错的翻译,但它们仍然有几个关键问题没有得到很好的解决:可控性、人类感知、图像质量。该模型的方法在一定程度上提高了结构一致性和图像质量。整个场景由三个互补的语义分割组(全景、人和人脸)组成。通过组合提取的三个语义分割组,网络学习生成语义的布局和条件以生成最终图像。为了创建场景的令牌空间,作者采用了“VQ-SEG”,这是对“VQ-VAE”的改进。在这个实现中,“VQ-SEG”的输入和输出都是m个通道。附加通道是分隔不同类和实例的边缘映射。边缘通道为同一类的相邻实例提供分离,并强调具有高重要性的稀缺类。在训练“VQ-SEG”网络时,由于每个人脸部位在场景空间中占据的像素数量相对较少,导致在场景空间中重建人脸部位(如眼睛、鼻子、嘴唇、眉毛)的语义现场。分裂经常减少。对此,作者尝试在分割人脸分类的基础上使用加权二元交叉熵人脸损失来突出人脸部位的重要性。此外,人脸部分的边缘作为上述语义分割边缘图的一部分被包括在内。作者采用了在ImageNet数据集上训练的预训练VGG网络,而不是专门的人脸嵌入网络,并引入了特征匹配损失,表示重建图像和真实图像之间的感知差异。通过使用特征匹配并在VQ-IMG的编码器和解码器中添加额外的上采样和下采样层,输出图像的分辨率可以从256×256提高。想必大家对Transformer都不陌生,那么什么是场景化Transformer呢?它依赖于具有三个独立且连续的标记空间的自回归Transformer,即文本、场景和图像。令牌序列由BPE编码器编码的文本令牌、VQ-SEG编码的场景令牌和VQ-IMG编码或解码的图像令牌组成。在训练基于场景的Transformer之前,每个编码的token序列对应一个[text,scene,image]元组,使用相应的编码器提取该元组。此外,作者采用了无分类器引导,即引导非条件样本到条件样本的过程。该模型取得了SOTA结果。让我们看一下与之前方法的比较。现在,研究人员还将Make-A-Scene与超分辨率网络集成在一起,可以生成2048x2048和4倍分辨率的图像。如下:实际上,与其他生成式AI模型一样,Make-A-Scene通过在数百万示例图像上进行训练来学习视觉与文本之间的关系。不可否认的是,训练数据中反映的偏差会影响这些模型的输出。正如研究人员指出的那样,Make-A-Scene仍然有很多不足之处。