当前位置: 首页 > 科技观察

OpenAI提供了一个120亿参数的神奇模型!文字合成图像栩栩如生,仿佛拥有了人类的语言想象力

时间:2023-03-18 17:10:24 科技观察

本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。2021年才刚刚开始,OpenAI又来扩招了!GPT-3能写小说和哲理语录,这不奇怪吗?然后来一个多模态的“GPT-3图像版本”。今天,OpenAI推出了最新的语言模型——DALL·E,它是GPT-3的120亿参数版本,可以像变魔术一样直接根据自然语言文字描述生成相应的图片!比如你在DALL·E模型中输入“穿着芭蕾舞短裙遛狗的胡萝卜宝宝”,它可以生成这样一张图片:输入“牛油果形状的扶手椅”,就这样:连输入“withOpenAI它还可以生成各种设计图:DALL·E这个神奇的技能,上了各大社交平台的热搜。Keras创始人Fran?oisChollet专门发文:这个看起来很酷,尤其是“图像生成”部分。原理上,应该是GPT-3在文字合成图像方向的扩展版,AI大神吴恩达也转推立马点赞,顺便挑了一张AI生成的满意的蓝衬衫+黑裤子的图像。OpenAI联合创始人兼首席科学家IlyaSutskever发推表示:人工智能的长期目标是构建多模态神经网络,即AI可以在不同模态(主要是文本和视觉域)之间学习概念,从而更好地理解世界.然而,DALLE和CLIP使我们更接近“多模态人工智能系统”的目标。值得一提的是,DALL·E的命名也很特别。这个擅长绘画创作的模特的名字来源于人类艺术家萨尔瓦多达利的名字和皮克斯机器人瓦力的名字的组合。接下来,我们就来详细介绍一下它还有哪些硬核能力。DALL·E的能力DALL·E能够为各种多语言组合结构的句子创建似是而非的图像。研究人员通过一些交互式视觉效果来举例说明这一点。在下面的例子中,每个视觉效果的文本提示都是在通过CLIP重新排序后从512个文本提示中的前32个中获得的,没有任何挑选。控制属性研究人员测试了DALL·E修改目标对象的能力,包括修改相应的属性和出现的次数。文本提示:五边形绿色时钟。在控制多个目标对象及其属性和空间关系的同时绘制多个目标是一个新的挑战。例如,“一只刺猬戴着红色的帽子,黄色的手套,蓝色的衬衫,绿色的裤子。”要正确解读这句话,DALL·E不仅要将每件衣服与动物正确结合,还要结合(帽子,红色),(手套,黄色),(衬衫,蓝色)和(裤子,绿色)形成联想和他们绝不能混淆。文字提示:一堆三维立方体:红色立方体在绿色立方体之上;绿色立方体在中间;蓝色立方体在底部。虽然DALL·E确实提供了对少数目标的属性和位置的某种程度的控制,但成功率取决于标题文本的语言。随着目标的增多,DALL·E很容易混淆目标与颜色的关系,成功率会急剧下降。研究人员指出,在这些情况下,DALL·E对标题文本的重新表述是脆弱且可替代的,并且语义等同的标题文本通常不会产生正确的解释。视觉透视和3D研究人员发现,DALLE还可以控制场景的视点和渲染场景的3D风格。文本提示:体素化模型水豚坐在田野上。为了进一步验证DALL·E的这一能力,研究人员测试了DALL·E在同一视角下反复绘制知名人物头像的能力,发现DALL·E能够成功还原旋转头部的流畅动画.文字提示:荷马半身像。DALLE可以将某些类型的光学畸变(OpticalDistortions)应用到特定的场景中,就像我们在“鱼眼镜头视图”和“球面全景”等场景中看到的那样。当它到达时。它促使研究人员探索其产生光学反射的能力。文字提示:一个白色的立方体在镜子中看着自己的倒影;一个白色的立方体在镜子里看着自己。可视化内部和外部结构“极端特写视图”和“X射线”样式案例使研究人员能够进一步探索DALLE使用横截面透视图来映射内部结构和外部结构的宏观图像能力。文本提示:核桃的横截面图。推断上下文细节将文本翻译成图像的任务是模棱两可的:标题文本通常可以对应于无数种图像,换句话说,图像不是唯一确定的。例如,如果标题文本显示为“绘制日出时坐在田野中的水豚。根据水豚的方向,可能需要绘制阴影,但未明确提及此细节。研究人员探索了DALL·E解决以下三种情况下的不规范问题的能力:改变样式、设置和时间;在多种不同情况下绘制同一个目标图像;在生成的目标图像上写指定的文字。文字提示:withbluestrawberryStainedglasswindows.利用不同程度的可靠性,DALL·E提供了一种通过自然语言实现3D渲染引擎功能的方法,可以独立控制少量对象的属性,将对象的数量控制在有限的范围内以及它们的排列方式。它还可以控制渲染场景的位置和角度,并且可以根据角度和光照生成准确和标准化的已知目标状况。与3D渲染引擎不同,3D渲染引擎的输入必须清晰完整,当标题文本暗示图像必须包含未指定的特定细节时,DALL·E往往能够“填空”。应用案例研究探索了上述特征在时装设计和室内设计中的应用。文本提示:一位身穿橙色男模特和黑白衬衫的女性。文本提示:客厅里有两张白色扶手椅和一幅现代风格壁炉上方悬挂的罗马斗兽场画作。AI生成图像:结合无关概念语言的构成性使人们能够整合概念描述来描述真实和想象的事物。OpenAI发现DALLE还具有将不同的想法结合起来合成物体的能力,其中一些物体是不可能存在于现实世界中的。OpenA在两种情况下探索这种能力:将各种概念的品质转移到动物身上,以及从不相关的概念中汲取灵感来设计产品。文字提示:竖琴形蜗牛。上一篇探讨了DALL·E在生成真实物体图像时合并不相关概念的能力。接下来,OpenAI通过艺术语境中的三种插图探索了这种能力:动物和物体的拟人化版本、动物嵌合体和表情符号。文本提示:长颈鹿乌龟适合、长颈鹿模仿乌龟、乌龟到长颈鹿的专业高质量插图。零样本视觉推理可以指示GPT-3仅根据指令和提示执行各种任务,而无需任何额外训练。例如,当提示短语“将‘公园里遛狗的人’翻译成法语:”时,GPT-3会回答“unhommequipromènesonchiendansleparc”。此功能称为零样本推理。OpenAI发现DALL·E将这种能力扩展到视觉领域,在正确提示的情况下,能够执行各种图像到图像的翻译任务。文本+图像提示:参考上面的猫生成下面的草图。OpenAI惊讶地发现DALLE有如此神奇的能力,因为他们没有对神经网络或训练程序做任何修改。受这些结果的启发,OpenAI通过在Raven的渐进矩阵上测试来衡量DALLE解决类比推理问题的能力,这是20世纪广泛使用的视觉智商测试。文本+图像提示:一系列几何形状。地理知识OpenAI发现DALLE理解地理事实、地标和街区。它的理解对这些概念的理解在某些方面出人意料地准确,但在其他方面却存在缺陷。文字提示:中餐图片。TimeKnowledge除了探索DALLE随空间变化的概念知识外,OpenAI还探索了其随时间变化的概念知识。文字+图片提示:1920年代发明的电话。总结:方法论和前期工作DALLE是一个仅解码器的Transformer架构,可以接收1280个文本和图像标记作为单个流(文本标记为256个,图像为1024个标记),并对所有这些标记执行自动回归建模.它的64个自注意力层中的每一个都有一个注意力掩码,因此每个图像标记都可以匹配所有文本标记。DALLE根据层数,在行、列或卷积注意力模式中对文本标记使用标准因果掩码,对图像标记使用稀疏注意力。OpenAI计划在下一篇论文中详细介绍DALLE架构和训练过程。与VQVAE-2中使用的拒绝抽样类似,OpenAI使用CLIP对每个文本生成的512个样本中的前32个进行排名。这个过程也可以看作是一种语言引导的搜索,它可以对样本质量产生巨大的影响。GPT-3向我们展示了语言可以用来指示大型神经网络执行各种文本生成任务。ImageGPT表明,同类型的神经网络可以用来生成高保真图像。OpenAI进一步扩展了这些发现,表明通过语言操纵视觉概念是可以实现的。与GPT-3一样,DALL·E是一个Transformer语言模型。OpenAI认为涉及生成模型的工作可以产生重大而广泛的社会影响。因此,在未来,OpenAI计划分析像DALLE这样的模型如何与社会问题相关,例如对某些工作流程和职业的经济影响、模型输出中可能存在的偏差,以及该技术隐含的长期伦理挑战。.最后,HenryAILabs在YouTube上分享了一段视频,简单介绍了OpenAI的DALL-E模型,并表示“希望它能清楚地解释深度神经网络中文本和图像是如何统一为张量的”。由于是非官方解释,仅供参考。最后,您对DALL·E神经网络模型的应用有何期待?二次元设计师?你认为它会引发一场人工智能革命吗?还是觉得它会有很多不可避免的局限性?