OpenAI又放出了一枚重磅炸弹。本月早些时候,去年夏天推出了极受欢迎的语言模型GPT-3的OpenAI研究团队宣布了一种名为DALL-E的新AI模型。虽然它不如GPT-3受欢迎,但它很可能对AI的未来发展产生更深远的影响。简而言之,DALL-E能够将文本描述作为输入并从中生成原始图像输出。(DALL-E这个名字来源于对超现实主义艺术家萨尔瓦多·达利和皮克斯创造的可爱机器人WALL-E的致敬。)例如,当输入“五边形绿色时钟”、“火球”或“Abluepumpkinmuralona建筑物的墙壁,”DALL-E能够生成惊人准确的视觉效果。▲在要求生成“建筑物墙壁上的蓝色南瓜壁画”之后,为什么OpenAI的新深度学习模型DALL-E能够生成上面的原图DALL-E意义重大?首先,它预示着一种称为“多模态人工智能”的新人工智能范式的出现。这种范式似乎代表了人工智能的未来。以DALL-E为例,多模式AI系统可以对多种信息模式进行解读、综合和翻译,从而映射情境、语言和图像。DALL-E虽然不是第一个多模式AI解决方案,但却是迄今为止最惊人的实际效果。OpenAI联合创始人IlyaSutskever总结道:“世界不仅仅是由文字构成的。人类使用视觉和表达。视觉元素非常重要。”当今存在的大多数人工智能系统只能处理一种类型的数据。自然语言处理模型(NLP模型,如GPT-3)只能处理文本;计算机视觉模型(如人脸识别系统)只能处理图像。但人脑所表现出的智能显然更具适应性,能够处理的信息也更加灵活。人类不断接收和整合来自所有五种感官的信息——我们通过视觉、听觉、触觉、嗅觉和味觉的结合来理解我们周围的世界。以此为基础,我们通过语音、文字、肢体表情、面部表情、音乐等多种形式,将信息回传给这个丰富多彩的世界。通过将自然语言理解与生成视觉表征的能力相结合(即“阅读”与“视觉”相结合),DALL-E再次展示了多模态人工智能所蕴含的巨大潜力。而这仅仅是个开始。在未来的岁月里,新的人工智能系统有望无缝连接音频、视频、语音、图像、书面文本、触摸和其他元素。随着AI学会以越来越复杂的方式组合多条信息,其理解世界和产生新见解的能力将会爆发式增长。DALL-E还有另一层,或者更根本的意义:人类越来越无法否认人工智能所蕴含的巨大创造力。DALL-E生成的图像远远超出了人类的想象范围。这些远不是对互联网上现有图像的简单修改——相反,这些是前所未见的效果图,其巧妙和巧思足以让艺术家惊叹。事实上,即使是DALL-E的创造者,也常常无法理解它的生成原理。让我们来看看DALL-E的部分作品吧。首先是“一碗拉面表情符号”,然后是“鳄梨制成的企鹅”。如果这些成果出自人类设计师之手,我们无疑会将其视为实际创作的产物。既然如此,我们还有理由否定或拒绝DALL-E吗?▲DALL-E基于“一碗拉面表情”输出的图像▲DALL-E基于“牛油果做的企鹅”生成的图像凭借这种强大的创造力,DALL-E足以进行产品设计、时尚和架构证明了AI技术的实际意义。不久之后,人类设计师可能会习惯使用像DALL-E这样的人工智能系统作为构思辅助工具,甚至是灵感的来源。例如,当被要求设计一款“甜甜圈式扶手椅”时,DALL-E带来了多种丰富的构图选择。当然,它的设计和外观是相当标准的。不难想象,未来会有家具设计师反复使用DALL-E探索模型输出,调整输入文本进行设计迭代,最终将AI元素引入作品中。类似的创作过程将适用于范围广泛的产品,从汽车到灯具,从珠宝到房屋。▲DALL-E基于“甜甜圈式扶手椅”生成的输出图像当然,DALL-E远非完美,它生成的图像并不总是准确地表示输入的文本:例如,它经常、数量、或空间关系。OpenAI公开发布的DALL-E工作样例经过CLIP神经网络整理筛选。对于每一个文本输入,系统只会显示筛选后的512个样本中置信度最高的前32个样本。换句话说,DALL-E实际上产生了更多的图像,只是对大多数图像效果不佳。综上所述,DALL-E的创作能力令人惊叹,技术本身仍在快速迭代中。与人工智能技术的其他重大发展一样,DALL-E再次提醒我们一个古老的问题:机器是否越来越接近类人智能?一方面,DALL-E的诞生激发了对超级智能技术的夸张。但另一方面,以著名深度学习评论家GaryMarcus为代表的怀疑论者认为,DALL-E并没有给AI技术的发展带来任何真正的推动力。Marcus的观点值得认真对待。深度学习(包括为DALL-E、GPT-3提供基础的尖端transformer架构)在建模智能概念方面仍然存在严重局限性。但从某种意义上说,辩论没有抓住重点。无论OpenAI的新模型代表的是下一步迈向“通用人工智能”,还是深度学习能否真正带来与人类同等认知水平的机器智能,DALL-E本身依然拥有非凡的新能力——这已成为不争的事实。DALL-E及其后续解决方案有望为人机之间的创造性关系带来新的可能性,从而产生巨大的经济价值,为新一波创新型初创企业和产品奠定基础。面对无限可能,我们只需充满期待。
