前言什么是人工智能?在你的脑海中,你可能有一个由神经元堆叠而成的神经网络。那么什么是绘画艺术呢?达芬奇的《蒙娜丽莎的微笑》,梵高的《星空夜》,《向日葵》,还是约翰内斯·维米尔的《戴珍珠耳环的少女》?当AI遇上绘画艺术,会擦出怎样的火花?2021年初,OpenAI团队发布了能够根据文字描述生成图像的DALL-E模型。由于其强大的跨模态图像生成能力,吸引了自然语言和视觉技术爱好者的强烈追捧。在短短一年多的时间里,多模态图像生成技术如雨后春笋般涌现。在此期间,也诞生了很多利用这些技术进行AI艺术创作的应用,比如最近流行的DiscoDiffusion。如今,这些应用正逐渐进入艺术创作者和普罗大众的视野,成为很多人心中的“神笔马良”。本文从技术兴趣出发,介绍多模态图像生成技术和经典工作,最后探索如何使用多模态图像生成进行神奇的AI绘画艺术创作。与传统的基于噪声生成图像的单模态生成技术不同,多模态图像生成一直是一项极具挑战性的任务。需要解决的问题主要包括:(1)如何跨越“语义鸿沟”,打破模态之间固有的各种壁垒?(2)如何生成逻辑性、多样性、高分辨率的图像?近两年,随着Transformer在自然语言处理(如GPT)、计算机视觉(如ViT)、多模态预训练(如CLIP)以及以VAE、GAN为代表的图像生成技术中的成功应用,逐渐被后起之秀——扩散模型(DiffusionModel)赶超,多模态图像生成的发展一发不可收拾。多模态图像生成技术与经典作品分类根据训练方式,采用Transformer自回归还是扩散模型,近两年多模态图像生成的重点任务分类如下:Transformer自回归采用Transformer自回归方法的实践通常将文本和图像转换成token序列,然后使用生成式Transformer架构从文本序列(和可选的图像序列)中预测图像序列,最后使用图像生成技术(VAE、GAN等)对图像序列进行解码得到最终生成的图像。以DALL-E(OpenAI)[1]为例:图像和文本通过各自的编码器转换成序列,拼接在一起,送入Transformer(这里使用GPT3)进行自回归序列生成。在推理阶段,使用预训练的CLIP计算文本与生成图像的相似度,排序后得到最终生成图像的输出。与DALL-E类似,清华的CogView系列[2,3]和百度的ERNIE-ViLG[4]也采用了VQ-VAE+Transformer的架构设计,Google的Parti[5]将图像编解码器换成了ViT-VQGAN。而微软的NUWA-Infinity[6]可以使用自回归方法实现无限视觉生成。扩散模型扩散模型(DiffusionModel)是近一年发展迅速的图像生成技术,被誉为GAN的终结者。如图所示,扩散模型分为两个阶段:(1)噪声添加:沿着扩散的马尔可夫链过程逐渐向图像中添加随机噪声;(2)去噪:学习反向扩散过程来恢复图像。常见的变体有DenoisingDiffusionProbabilityModel(DDPM)等。扩散模型形式的多模态图像生成方法主要是通过有条件引导的扩散模型学习文本特征到图像特征的映射,并解码图像特征得到最终生成的图像。以DALL-E-2(OpenAI)[7]为例。虽然是DALL-E的延续,但采用了与DALL-E完全不同的技术路线。它的原理更像GLIDE[8](也有人叫GLIDEDALL-E-1.5)。DALL-E-2的整体架构如图所示:DALL-E-2使用CLIP对文本进行编码,利用扩散模型学习一个先验过程,得到文本特征到图像特征的映射;最后,学习了反转CLIP的过程,将图像特征解码为最终图像。与DALL-E-2相比,谷歌的Imagen[9]使用预训练的T5-XXL代替CLIP进行文本编码,然后使用超分辨率扩散模型(U-Net架构)增加图像尺寸,导致1024??1024高清生成图像。总结自回归Transformer的引入和CLIP比较学习的方法,在文本和图像之间架起了一座桥梁;同时,基于条件引导的扩散模型,为生成多样化、高分辨率的图像奠定了基础。然而,评估图像生成的质量往往是主观的,因此在这里很难比较Transformer自回归或扩散模型技术是否更优。而像DALL-E系列、Imagen、Parti这样的模型都是在大规模数据集上训练的,使用时会存在伦理问题和社会偏见,所以这些模型目前还没有开源。不过,仍然有很多爱好者尝试使用这项技术,在此期间也产生了很多可玩的应用。人工智能艺术创作的多模态图像生成技术的发展,为人工智能艺术创作提供了更多的可能性。目前广泛使用的AI创作应用和工具包括CLIPDraw、VQGAN-CLIP、DiscoDiffusion、DALL-EMini、Midjourney(需要邀请资质)、DALL-E-2(需要内测资质)、DreamByWombo(App)、Meta“Make-A-Scene”、抖音“AI绿屏”功能、StableDiffusion[10]、百度“OneGrid”等。本文主要使用艺术创作圈流行的DiscoDiffusion进行AI艺术创建。DiscoDiffusion简介DiscoDiffusion[11]是Github上由众多技术爱好者共同维护的AI艺术创作应用,目前已迭代多个版本。从DiscoDiffusion的名字不难看出,它使用的技术主要是CLIP引导的扩散模型。DiscoDiffusion可以根据指定的文本描述(和可选底图)生成艺术图像或视频。比如你输入“花海”,模型会随机生成一张噪声图像,通过Diffusion的去噪扩散过程一步步迭代。达到一定的步数后,就可以渲染出漂亮的图像了。由于扩散模型的生成方式多样,每次运行程序都会得到不同的图像。这种“打开盲盒”的体验,着实让人着迷。DiscoDifsion存在的问题基于多模态图像生成模型DiscoDiffusion(DD)的AI创作目前存在以下问题:(1)生成图像质量参差不齐:根据生成任务的难度,难以粗略估计描述内容生成任务的良品率在20%到30%之间,描述内容简单的生成任务的良品率在60%到70%之间,大部分任务的良品率在30%到30%之间40%。(2)生成速度慢+内存消耗大:以迭代250步生成一张1280*768的图片为例,耗时6分钟左右,使用V10016G显存。(3)严重依赖专家经验:选择一套合适的描述符需要对文本内容、权重设置、对艺术家的绘画风格和艺术社区的理解以及文本修饰符的选择进行大量的试错;调整参数需要DD中自带的CLIP深入理解引导数/饱和度/对比度/噪点/切割次数/内外切割/渐变大小/对称性/...等概念,同时时间必须有一定的艺术基础。大量的参数也意味着需要强大的专家经验才能获得像样的生成图像。技能储备针对以上问题,我们做了一些数据和技术储备,同时YY也介绍了一些未来可能的应用。如下图所示:对于第一个问题,我们从艺术创作社区中抓取了近2w幅AI生成的艺术作品,从生成图像的基本属性和图像的合理性进行了三类标注内容:goodquality/qualityAverage/poorquality,训练艺术品质量评估模型。该模型可以自动评估AI生成图像的质量并选择高良品率的图像,解决了人工选择高质量图像效率低的问题。对于第二个问题,我们通过减少迭代次数+生成小尺寸图像来提高DD的生成效率,然后使用超分辨率算法ESRGAN进行高分辨率图像重建。这种方法可以达到DD正常迭代生成的图像效果,生成效率和显存优化至少翻了一番。对于第三个问题,我们积累了一套底图预处理逻辑,包括色温和色调调整/前景背景颜色调整/加噪声等,可以快速应用不同的底图生成任务;同时,我们也积累了大量的文字提示词,大量的DD调校和试错,依靠专家经验生成个性化、多样化、高质量的图片。利用这些数据和技术储备,积累了手机/电脑壁纸、艺术姓/名、地标城市风格化、数字馆藏等多模态图像生成应用。下面我们展示了具体的AI生成的艺术作品。AIArtworkCityLandmarkBuildingStylization通过输入文字描述和地标城市底图,生成不同风格的画作(动漫风格/赛博朋克风格/像素艺术风格):(1)动漫风格的建筑,bymakotoshinkaiandbeeple,Trendingonartstation。(2)GregoryGrewdson的赛博朋克风格建筑,artstation上的Trending。(3)StefanBogdanovi的像素风格建筑,artstation上的Trending。数字馆藏通过输入文本和底图进行描述,在底图上创建。AntLogo系列(蚂蚁森林/蚂蚁小屋/蚂蚁飞船):(1)有植被和湖泊的风景,RAHDS和beeple,artstation上的Trending。(2)悬崖边上的魔法小屋,预示着不祥的幻想景观,由RAHDS和beeple设计,艺术站上的趋势。(3)RAHDS和beeple设计的宇宙飞船,艺术站上的趋势。蚂蚁鸡系列(鸡变形金刚/鸡海绵宝宝方块):(1)变形金刚机甲,AlexMilne,artstation上的趋势。(2)RAHDS和beeple的Spongebob,artstation上的趋势。手机/电脑壁纸输入文字描述生成手机壁纸:(1)TheesoticdreamscapebyDanLuvisi,Artstationtrending,mattepaintingwastelandscape.(2)Scatteredterraces,winter,snow,byMakotoShinka,trendingonArtstation,4k墙纸。(3)一幅美丽的亚特兰蒂斯云朋克画,由皮克斯洛可可风格、Artstation、体积照明所预示的蒸汽朋克鲸鱼所预示的深渊升起。(4~8)恩斯特·海克尔(ErnstHaeckel)和Artstation上的Pixartrending,4kwallpaper.通过输入文字描述生成电脑壁纸:(1)新海诚的精美,美丽的乡村田野,超广角,俯瞰,早晨。(2)JamesGurney的一幅美丽的星夜画,照耀着向日葵的大海,艺术站上的趋势。(3)gregrutkowski和thomaskinkade的Fairytalesteamcountry艺术站上的趋势。(4)一个美丽的danielmerriam在梦幻般的风景中渲染一座神奇的建筑,柔和的灯光,4k高清壁纸,artstation和behance上的趋势。AI艺术姓氏通过输入文本描述和姓氏底图生成不同风格的艺术姓氏:(1)大-规模军工厂、机甲试验机、半成品机甲、工程车、自动化管理、指标、未来、科幻、光效、高清图。(2)蘑菇、树、artstation、Artstation的美图,4k高清壁纸。(3)一幅由向日葵、雾、虚幻引擎组成的美丽画作,将它的光芒照耀在汹涌的血海中,作者:gregrutkowski和thomaskinkade,Artstation,AndreasRocha,GregRutkowski.(4)一幅美丽的水上亭子画呈现出倒影,作者:JohnHowe、AlbertBierstadt、AlenaAenami和danmumford概念艺术壁纸4k,artstation、概念艺术、电影、虚幻引擎上的趋势,trendingonbehance.(5)由JohnHowe、AlbertBierstadt、AlenaAenami和danmumford设计的郁郁葱葱的丛林和异国情调的植物和树木的美丽风景概念艺术壁纸4k,trendingonartstation,conceptart,cinematic,unrealengine,在behance上的趋势。(6)魂斗罗,红色堡垒,宇宙飞船,恩斯特海克尔和皮克斯,壁纸高清4k,artstation上的趋势。其他AI艺术创作应用StableDiffusion[10,12]展现了比DiscoDiffusion[11]更高效稳定的创作能力,特别是在描绘“事物”的图像生成技术及相关进展工作中,并尝试使用多模态为各种人工智能艺术创作生成图像。接下来,我们还将探索多模态图像生成技术在消费级CPU上运行的可能性,并将业务与AI智能创作相结合,尝试更多内容创作如电影、动漫题材封面、游戏、元界等更多相关应用。使用多模态图像生成技术进行艺术创作只是人工智能生成内容(AIGC)的一种应用方式。得益于当前的海量数据和预训练大型模型的发展,AIGC可以加速其落地,为人类提供更多优质内容。或许,通用人工智能又向前迈进了一小步?如果您对本文涉及的技术或应用感兴趣,欢迎创建交流。参考文献[1]RameshA,PavlovM,GohG,etal.Zero-shottext-to-imagegeneration[C]//机器学习国际会议。PMLR,2021:8821-8831.[2]丁男,杨志,洪伟,等。Cogview:通过转换器掌握文本到图像的生成[J]。神经信息处理系统进展,2021,34:19822-19835.[3]丁男,郑伟,洪伟,等。CogView2:通过分层转换器更快更好地生成文本到图像[J]。arXiv预印本arXiv:2204.14217,2022.[4]张宏,尹伟,方毅,等。ERNIE-ViLG:双向视觉语言生成的统一生成预训练[J]。arXiv预印本arXiv:2112.15283,2021.[5]YuJ,XuY,??KohJY,等。用于内容丰富的文本到图像生成的缩放自回归模型[J]。arXiv预印本arXiv:2206.10789,2022.[6]WuC,LiangJ,HuX,等。NUWA-Infinity:无限视觉合成的自回归生成[J]。arXiv预印本arXiv:2207.09814,2022.[7]RameshA、DhariwalP、NicholA等。具有剪辑潜能的分层文本条件图像生成[J]。arXiv预印本arXiv:2204.06125,2022.[8]NicholA、DhariwalP、RameshA等人。Glide:使用文本引导的扩散模型实现逼真的图像生成和编辑[J]。arXiv预印本arXiv:2112.10741,2021.[9]SahariaC、ChanW、SaxenaS等人。具有深度语言理解的逼真文本到图像扩散模型[J]。arXiv预印本arXiv:2205.11487,2022.[10]RombachR、BlattmannA、LorenzD等人。具有潜在扩散模型的高分辨率图像合成[C]//IEEE/CVF计算机视觉和模式识别会议论文集。2022:10684-10695.[11]Github:https://github.com/alembics/disco-diffusion[12]Github:https://github.com/CompVis/stable-diffusion
