把椅子上的萌狗P变成狗需要多少步猫?第一步是圈狗。第二步是告诉AI你的需求。鼠标一键,同住。这位AI图片大师其实就是一位老朋友——OpenAI风靡全球的DALL·E。现在,它刚刚完成了《2.0超进化》。不仅学到了高超的P图技巧,创作质量也得到了很大的提升。话不多说,看作品感受一下~这是DALL·E2在“星云爆柯基”的提示下创作的一幅画:这萨尔瓦多·达利的画像是不是有点萨尔瓦多·达利?达利闻到了?与第一代DALLE相比,画质和艺术感双双飙升。△《日出时坐在原野的狐狸,莫奈式》那么,研究人员究竟是如何点亮DALL·E的新技能点的呢?CLIP+扩散模型DALL·E的演化,简单来说就是分辨率更高,延迟更低。此外,还有两大新特性:一是文本→图片功能的实现粒度更细。也就是说,DALL·E2可以根据自然语言提示制作P图。在P图的过程中,还要考虑到阴影、反射、贴图等元素的变化。比如左侧图标“2”的位置有一个火烈鸟游泳圈,DALL-E2也会将水面倒影的细节处理到位。其次,在保留原作核心元素的基础上,可以赋予原作舰船全新的风格。并且生成的画面画质是DALL·E1的4倍,即从256×256升级到1024×1024。CLIP是原DALL·E功能实现的基础。它是一个负责重新排序图像的模型。它的零样本学习能力已经在各种视觉和语言任务中大放异彩。扩散模型的特点是可以在牺牲多样性的前提下大大提高生成图像的保真度。因此OpenAI研究人员设计了一个方案:在这个称为unCLIP的架构中,CLIP文本嵌入首先被馈送到自回归或扩散,然后再生成图像嵌入。然后使用该嵌入来调节扩散编码器以生成最终图像。OpenAI解释说,DALLE可以得到图像和用来描述图片的文字之间的关系。它的图像的生成是在“扩散”的过程中完成的,可以理解为从“一堆点”开始,用越来越多的细节填充图像。研究人员将DALL·E2与DALL·E和GLIDE等模型进行了比较。实验结果表明,DALL·E2的图像生成质量与GLIDE相当,但DALL·E的生成结果更加多样化。目前DALL·E2还没有对外开放,但是如果你有兴趣,可以在线注册申请发布~项目地址:https://openai.com/dall-e-2/#demos
