作者:钱山 审稿人:吴牧 随着科技的进步,人工智能展现出巨大的发展潜力。从率先击败人类围棋世界冠军的AlphaGo,到可以独立编程的AlphaCode,AI的可塑性往往是惊人的。然而,与AI相关的争议也一直接踵而至,比如人脸识别涉及的隐私问题,自动生成很多假新闻等。 现在,OpenAI全新的DALL·E2系统再次受到关注。本系统可以根据文字描述自动生成各种图片。这些图片不仅可以是假的,而且往往具有怪异的表现力。但在这种能力的背后,对偏见和欺诈的隐忧再次浮出水面。因为虽然技术没有善恶之分,但人性未必经得起考验。 你见过泰迪熊在时代广场玩滑板吗?你见过宇航员在外太空骑马吗? DALL-E2让你“看到”以上两个现实中不存在的画面。 什么是DALL-E2?它是知名的OpenAI开发的文本生成图像工具DALL-E的最新版本,也是最近破圈并引起一定讨论的AI系统。DALL-E2:画质提升,增加二次创作功能 2021年1月,OpenAI创作了DALL-E。本系统基于GPT-2/GPT-3语言模型和CLIP图像识别系统生成。据了解,DALL-E这个名字来源于超现实主义画家萨尔瓦多·达利和皮克斯出品的动画 的主人公WALL-E的名字组合。 与第一代DALL-E相比,DALL-E2的准确度和真实度分别提升了71.7%和88.8%,画质实现了质的飞跃。比如第一代DALL·E画面像素只有256×256,而DALL·E2的像素可以达到1024×1024,分辨率更好,延迟更低。 就像同一篇描述“apaintingofafoxsittinginafieldatsunriseinstyleofClaudeMonet”(克劳德·莫奈风格的狐狸坐在日出时的画作)一样的文字,在两处是现代系统生成的图像性能的显着差异。直观上看,左边(DALL-E1)看起来像粗糙的卡通,乱七八糟,而右边(DALL-E2)的清晰度明显提升,真的有油画的质感.来源:OpenAI官网 此外,DALL-E2新增了两个新功能——“图像修复”(inpainting)和“变体”(variations),可以用来对图片进行编辑润饰。 “图像修复”是对现有图像的一部分进行局部更改。具体来说,就是通过DALL·E2用AI生成的图像对图片中的单个物体进行填充或替换,同时与原图无缝衔接,比如用小狗替换沙发上的抱枕,或将其放入池中。一只玩具鸭。来源:OpenAI官网 “变异”是指在一张图像的基础上,重新创造出不同角度和风格的新图像。用户可以在上传原始图片后对其进行各种样式修改,也可以将对象叠加在两张图片上生成新图片。来源:OpenAI官网突破与挑战:假图片是如何生成的 OpenAI推出的新版本DALL-E2基于名为CLIP的计算机视觉系统。CLIP接受了数亿张图像及其相关说明的训练,了解给定文本片段与图像的关联程度。 值得注意的是,OpenAI在CLIP上迭代创建了“unCLIP”——一个基于描述并致力于图像生成目标的新系统——同时将其用于DALL-E2。unCLIP可以部分补充CLIP的不足,即,“人们可以通过用具有其他含义的词来标记对象来欺骗系统错误地识别他们所看到的东西。” 例如,如果系统被教导了一个名称错误的对象,例如带有标签名称“汽车”的飞机图像,那么当用户稍后想要生成“汽车”的图像时,它可能生成飞机的图像。这个过程就像和一个学错了词的人交谈。在这方面,unCLIP的表现要比CLIP好很多。 同时,新系统支持DiffusionModels。这类程序会以随机点组成的图案开始,一旦获得更具体的描述点,就会逐渐转化为图片。它的优势在于能够生成高质量的合成图像,尤其是与在多样性与保真度之间进行权衡的引导技术相结合时。 不过,虽然文字生成图片的相关研究一直在进步,但总有不尽如人意的地方,就像DALL-E2在训练中也会受到盲区的限制。 例如,如果你在DALL-E2中输入“猴子”,通过学习图像和正确的标签来理解它,它会生成许多有趣的猴子图像。但是如果你输入“howlermonkey”,它还没有知道“howlermonkey”是什么,它就不知道它实际上是一个物种名称。然后DALL-E2会给你它认为最好的结果——一只大吼大叫的猴子。目前,DALL-E2的潜力和局限性同样突出和明确。技术需要深入研究,人性不可窥探 有趣的是,OpenAI并未完全公开DALL-E模型。目前,用户可在其官网注册账号后进行预览。相关研究人员仅表示,他们希望继续分阶段进行,以便该技术能够安全发布。 尽管DALL-E2的创造令人眼花缭乱,但很多人都注意到了这项技术背后的隐患。撇开算法诞生以来就饱受诟病的偏差问题不谈,单是其近乎不真实的画面质量就让人毛骨悚然。正如亚利桑那州立大学计算机科学教授苏巴拉所说:“你可以将它用于好的事情,但你绝对可以将它用于更疯狂的事情,包括深度伪造的照片和视频。” 就像GPT-3被怀疑被用来制作假新闻一样,DALL-E2等图像生成工具也可能被滥用。如果每个人都能大量输出假照片而没有任何违和感,大家会不会没有安全感?毫无疑问,“人们将不得不怀疑他们在网上看到的几乎所有东西。”最明智的做法是完全远离互联网和电视,避免与那些想告诉您您在互联网上看到的内容的人有任何接触。如果全息图在未来成为主流,那么我们将为子孙后代创造一个反乌托邦的地狱 对此,OpenAI也有预测,表示将继续构建DALL-E,同时使用保护策略来应对潜在的问题例如图像偏差和错误信息。这些措施包括: DALL-E2生成的图像将带有水印,表明它们来自人工智能。 DALL-E2是根据过滤掉不良素材后的数据进行训练的。理想情况下,它产生有害内容的能力是有限的。 防滥用功能可防止DALL-E2随机生成可识别的面孔名称。 用户不得在该工具上“上传或生成仇恨符号、裸体、淫秽手势、阴谋或与正在进行的重大地缘政治事件相关的评论”。 用户需要说明人工智能所做的改变生成图片,不能通过软件和网站将生成的图片提供给他人。 虽然不知道效果如何,但至少DALL-E2还是被锁在了“深箱”里。当然,需要承认的是,DALL-E2的强大功能让人们能够以图形化的方式表达自己,这是以前完全无法实现的。在此之前,没有人知道“一把长得像牛油果的椅子”或“弹吉他的北极熊”、“什么是达利式空中花园”和“莫霍克头发的蒙娜丽莎”长什么样,但现在DALL-E2让这一切都以一种贴近现实的方式呈现在公众面前,同时,DALL-E2也帮助人们了解一个复杂的人工智能系统是如何观察和理解我们的世界的,这对发展人工智能至关重要。有用且安全的AI。 参考链接: https://openai.com/dall-e-2/ https://www.assemblyai.com/blog/how-dall-e-2-actually-works/ https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-测试?scrolla=5eb6d68b7fedc32c19ef33b4 https://www.seattletimes.com/business/technology/meet-dall-e-the-ai-that-draws-anything-at-your-command/?utm_campaign=Artificial+Intelligence+Weekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_270 https://www.bilibili.com/video/BV1L3411n7nd?spm_id_from=333.337.search-card.all.click
