本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。在让AI创造方面,Google和OpenAI刚刚迎头而上。这不,震惊全网的《DALL·E2》才发售一个月,谷歌就派出了一个叫Imagen的玩家上擂台。直接对比上图。左图是GoogleImagen选手眼中的“猫绊人像”,右图是DALL·E2选手创作的同题材作品。你觉得哪位选手的作品更符合题目的意思呢?而让网友直呼“DALL·E2落伍了?”的还不仅仅是正面的PK刺激吗?看到这样的照片,不说是AI生成的,是不是要感叹二足兽的摆拍技术越来越好了呢?输入“折纸作品:雪林中的一只狐狸和一只独角兽”,Imagen制作的图像是蒋阿姨的:你也可以试试把文字写的长一点。比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一幅画了鲜花的画》……(先喘口气)Imagen也轻松拿下,要素齐全:看到这里,机器学习圈的网友们是这样反应的:不行,才一个月又更新了?请停止震惊我。这件事闹得沸沸扬扬,很快就破了圈。吃瓜群众第一时间就想到了一起去。将来可能没有画廊网站。那么这个来自谷歌的新AI到底有什么独家秘密呢?详情我们往下看。增进“理解”比优化“生成”更重要。我们之前介绍过很多text-to-imagegeneration,基本就是一个套路:CLIP负责从textfeatures映射到imagefeatures,然后引导一个GAN或者diffusionmodel生成图片。但是GoogleImagen这次有一个颠覆性的变化——使用纯语言模型只负责编码文本特征,将文本到图像转换的工作留给图像生成模型。语言模型部分使用谷歌自家的T5-XXL,训练后冻结textencoder。图像生成部分是一系列扩散模型,首先生成低分辨率图像,然后逐级超采样。这样做的最大好处是纯文本训练数据比高质量的图文数据更容易获得。T5-XXL的C4训练集包含800GB的纯文本语料,其文本理解能力会强于使用有限图文对训练的CLIP。这也得到了实验数据的支持。在人类评价方面,T5-XXL在保真度和语义对齐方面表现优于CLIP。谷歌在实验中还发现,扩大语言模型的规模比扩大图像生成模型对最终效果的影响更大。看到这里,有网友指出,谷歌最终采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%。如果使用PaLM,会发生什么?除了语言模型的发现,谷歌通过对Imagen的研究,对扩展模型做了很多优化。首先,增加无分类器指导的权重以牺牲图像保真度为代价改善图像文本对齐。解决方案是在每个采样步骤使用动态阈值来防止过饱和。其次,在使用高引导权重的同时向低分辨率图像添加噪声可以改善扩散模型中多样性不足的问题。第三,对扩散模型的经典结构U-Net进行了改进,新的EfficientU-Net提高了内存使用效率、收敛速度和推理时间。在语言理解和图像生成两方面都得到提升后,Imagen模型整体在评测中也取得了不错的成绩。比如新的SOTA是在COCO基准测试上实现的,但是COCO数据集根本没有用于训练。在COCO测试的人类评价部分也发现了Imagen的一个缺点,就是不擅长生成人类图像。具体表现为无人类图像在真实感方面获得了更高程度的人类偏好。与此同时,Google推出了DrawBench,这是一个比COCO更具挑战性的测试基准,其中包含各种棘手的提示。实验发现,DALL·E2很难准确理解两种颜色要求同时出现的情况,但Imagen没有问题。反直觉的情况,比如“horseridinganastronater”都表现不好,只能画出“astronautridingahorse”。不过Imagen对“熊猫拉花”的理解更准确,只有一个错误。DALL·E2把熊猫都画进了图案里。△大概“骑马宇航员”有点违反直觉(狗头)。Imagen在要求文本出现在图像中做得更好。除了最基本的文字书写外,还可以正确地在文字中加入烟花。AI绘画越来越出圈说起来,AI绘画起源于谷歌。2015年,谷歌推出DeepDream,开创了AI从文本生成图像的先河。△DeepDream的作品但如果相关技术真的“滚”出圈,标志性事件是2021年OpenAI的DALL·E诞生。当时Keras之父吴恩达等众多大佬转发并一个接着一个喜欢。DALLE甚至被称为2021年人工智能技术的第一个激动人心的突破。随后,这些年语言理解模型和图像生成模型的技术进步,都集中在“AI绘画”这件事情上。CLIP+GAN、CLIP+扩散模型的一系列研究和应用在网络上频频掀起热潮。此后一发不可收拾,技术更新迭代越来越快。《DALL·E2》刚发售的时候,就有网友发起了投票,询问新的SOTA要多久才会出现。当时,大多数候选人都是几个月或一年多的时间。但现在,距离Imagen仅剩6周了。随着AI绘画的效果越来越强大,受众范围也在不断扩大,突破技术圈,进入大众视野。前段时间,有一款AI绘画应用登上了AppleAppStore图形和设计榜单榜首。现在最新的趋势是各行各业的设计师排队申请Midjourney、Tiamat等商业产品的内测,最大化社交网络。像这样出圈也给OpenAI、谷歌这样的大公司带来了不小的压力。考虑到AI伦理和公平,DALL·E2和Imagen都没有直接开源或开放API。他们每个人也有很大一部分论文涉及风险和社会影响。OpenAI选择了内测模式,而谷歌还在做进一步的研究和规范,等到确保AI不被滥用后再择机公开。如果你现在想体验Imagen,有一个在线演示。可以通过给定的几个提示词自由组合不同的场景。快来试试吧~Demo地址:https://gweb-research-imagen.appspot.com论文地址:https://gweb-research-imagen.appspot.com/paper.pdf
