现在,2022年底了,深度学习模型在生成图像上的表现已经如此出色。显然,未来它会给我们带来更多的惊喜。十年后,我们是如何走到今天的?在下面的时间轴中,我们追溯了影响AI图像合成的论文、架构、模型、数据集和实验脱颖而出的一些里程碑时刻。一切要从十年前的那个夏天说起。在深度神经网络出现(2012-2015年)之后,人们意识到它将彻底改变图像分类。与此同时,研究人员开始向相反的方向探索,如果使用一些对分类非常有效的技术(例如卷积层)来制作图像,会发生什么情况?这是“人工智能之夏”的开始。一切从这里开始,2012年12月。这一年,论文《深度卷积神经网络的ImageNet分类》发表。该论文的作者之一是“AI三巨头”之一的Hinton。它是第一个结合深度卷积神经网络(CNN)、GPU和庞大的互联网数据集(ImageNet)的公司。2014年12月,IanGoodfellow等AI巨头发表了史诗般的论文杰作《生成式对抗网络》。GAN是第一个致力于图像合成而非分析的现代神经网络架构(“现代”的定义是2012年后的)。它引入了一种独特的基于博弈论的学习方法,两个子网络“生成器”和“鉴别器”相互竞争。最终,只有“生成器”被排除在系统之外并用于图像合成。你好世界!GAN从Goodfellow等人那里生成人脸样本。2014年论文。该模型是在TorontoFaces数据集上训练的,该数据集于2015年11月在开创性论文发表后从网络上删除。在这篇论文中,作者描述了第一个实用的GAN架构(DCGAN)。这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向?GAN的五年(2015-2020)在这五年中,GAN被应用于各种图像处理任务,例如风格迁移、修复、去噪和超分辨率。期间关于GAN架构的论文开始爆发。项目地址:https://github.com/nightrome/really-awesome-gan与此同时,GAN的艺术实验开始兴起,MikeTyka、MarioKlingenmann、AnnaRidler、HelenaSarin等人的第一部作品出现了。首起“AI艺术”丑闻发生在2018年,三名法国学生用“借来”的代码生成了一幅AI肖像,成为第一幅在佳士得拍卖的AI肖像。与此同时,transformer架构彻底改变了NLP。这一事件将在不久的将来对图像合成产生重大影响。《Attention Is All You Need》论文发表于2017年6月。在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》中,也有详细的解释。从那时起,Transformer架构(以BERT等预训练模型的形式)彻底改变了自然语言处理(NLP)领域。《概念性标注:用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表于2018年7月。这个和其他多模态数据集对于CLIP和DALL-E等模型将变得极其重要。在2018-20年,NVIDIA的研究人员对GAN架构进行了一系列根本性的改进。在这篇论文《使用有限数据训练生成对抗网络》中,介绍了最新的StyleGAN2-ada。GAN生成的图像第一次变得与自然图像无法区分,至少对于像Flickr-Faces-HQ(FFHQ)这样高度优化的数据集来说是这样。MarioKlingenmann,MemoriesofPasserbyI,2018。培根面孔是该地区人工智能艺术的典型代表,其中生成模型的非现实主义是艺术探索的重点。论文《语言模型是小样本学习者》发表于2020年5月。OpenAI的LLMGenerativePre-trainedTransformer3(GPT-3)展示了Transformer架构的强大功能。2020年12月发表的论文《用于高分辨率图像合成的Taming transformers》。ViT表明Transformer架构可以用于图像。本文提出的VQGAN方法在基准测试中产生了SOTA结果。2010年代后期GAN架构的质量主要是在对齐的人脸图像上进行评估,对更多异构数据集的影响有限。因此,人脸仍然是学术/工业和艺术实验中的重要参考点。Transformer时代(2020-2022)Transformer架构的出现彻底改写了图像合成的历史。从那以后,图像合成领域开始抛弃GAN。“多模态”深度学习融合了自然语言处理和计算机视觉技术,“实时工程”取代模型训练和调整,成为图像合成的艺术手段。《从自然语言监督中学习可迁移视觉模型》本文提出了CLIP架构。可以说,目前图像合成的热潮是由CLIP率先引入的多模态能力驱动的。CLIPArchitectureinPapers2021年1月论文《零样本文本到图像生成》发表(另见OpenAI的博文),其中介绍了即将席卷全球的DALL-E的第一个版本。此版本通过将文本和图像(由VAE压缩为“TOKEN”)组合在单个数据流中来工作。该模型只是“继续”“句子”。数据(250M图像)包括来自维基百科的文本图像对、概念插图和YFCM100M的过滤子集。CLIP为图像合成的“多模式”方法奠定了基础。2021年1月发表的论文《从自然语言监督学习可迁移视觉模型》。该论文介绍了CLIP,一种结合了ViT和普通Transformer的多模态模型。CLIP学习图像和标题的“共享潜在空间”,因此可以标记图像。模型在本文附录A.1中列出的大型数据集上进行训练。论文《扩散模型的发布在图像合成方面击败了GAN》将于2021年6月发表。扩散模型引入了一种与GAN方法不同的图像合成方法。研究人员通过从人为添加的噪声中重建图像来学习。它们与变分自动编码器(VAE)相关。DALL-Emini将于2021年7月发布,是DALL-E的翻版(体积更小,架构和数据调整少)。数据包括Conceptual12M、ConceptualCaptions以及OpenAI用于原始DALL-E模型的YFCM100M相同过滤子集。在没有任何内容过滤器或API限制的情况下,DALL-Emini为创造性探索提供了巨大的潜力,并导致了Twitter上“怪异的DALL-E”图像的爆炸式增长。2021-2022KatherineCrowson发布了一系列CoLab笔记,探索制作CLIP引导生成模型的方法。例如,512x512CLIP-guideddiffusion和VQGAN-CLIP(Opendomainimagegenerationandeditingwithnaturallanguageguidance,2022年才作为预印本发布,但VQGAN一发布就出现了公共实验)。就像早期的GAN一样,艺术家和开发人员以非常有限的手段对现有架构进行重大改进,然后由公司进行简化,最后由像wombo.ai这样的“初创公司”将其商业化。论文《具有 CLIP 潜能的分层文本条件图像生成》发表于2022年4月。该论文介绍了DALL-E2。它建立在几周前发表的GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》)的基础上。与此同时,由于DALL-E2的访问受限和有意限制,人们对DALL-Emini重新产生了兴趣。根据模型卡,数据包括“公开来源和我们的许可来源的组合”,以及完整的CLIP和DALL-E数据集,根据该论文。使用DALL-E2制作的“使用单反相机拍摄的金发女性肖像照片,中性背景,高分辨率”。基于Transformer的生成模型与后来的GAN架构(如StyleGAN2)的真实感相匹配,但允许创建各种各样的主题和图案2022年5月至6月5月,纸《具有深度语言理解的真实感文本到图像扩散模型》。6月发表论文《用于内容丰富的文本到图像生成的缩放自回归模型》。这两篇论文分别介绍了Imagegen和Parti。以及谷歌对DALL-E2的回答。“你知道我今天为什么阻止你吗?”由DALL-E2生成,“提示工程”从此成为艺术图像合成的主要方法AIPhotoshop(2022-至今)虽然DALL-E2为图像建模树立了新标准,但其快速商业化也意味着它的使用从一开始就受到限制。用户仍在继续尝试较小的型号,如DALL-Emini。然后,随着开创性的StableDiffusion的发布,所有这一切都发生了变化。可以说,StableDiffusion标志着图像合成“Photoshop时代”的开始。“有四串葡萄的静物,尝试创造像古代画家ZeuxisJuanElLabradorFernandez的葡萄一样栩栩如生的葡萄,1636年,马德里普拉多”,StableDiffusion制作的六种变奏,2022年8月由Stability.aiStableDiffusion出版模型。在论文《具有潜在扩散模型的高分辨率图像合成》中,Stability.ai隆重推出了StableDiffusion。该模型可以实现与DALL-E2相同的真实感。除DALL-E2外,其他模型几乎立即面向公众开放,并且可以在CoLab和Huggingface平台上运行。2022年8月,Google发表了一篇论文《DreamBooth:为主题驱动生成微调文本到图像扩散模型》。DreamBooth对扩散模型提供越来越细粒度的控制。然而,即使没有这种额外的技术干预,使用像Photoshop这样的生成模型,从草图开始,逐层添加生成修改也变得可行。2022年10月,最大的库存图片公司之一Shutterstock宣布将与OpenAI合作提供/许可生成的图像。可以预料,股票图像市场将受到StableDiffusion等生成模型的严重影响。
