当前位置: 首页 > 科技观察

人工智能图像生成技术:短短5年如何快速发展?

时间:2023-03-13 16:13:45 科技观察

本文转载自公众号《读书芯》(ID:AI_Discovery)。生成人类音乐的算法,以及可以玩游戏和使用工具学习复杂策略的各种算法。最近,OpenAI发布了DALL-E,这是一个可以从书面文本生成图像的人工智能系统。例如,系统响应提示“Apurseinshapeofanavocado.Apurseinshapeofavocado”,可能会生成几十个关于鳄梨钱包的迭代。资料来源:OpenAI该公司尚未公开DALL-E(萨尔瓦多·达利和WALL-E的名字组合),甚至没有邀请其特定的开发人员群体试用新软件,但根据案例在其网站上,该系统可以创建极其逼真和详细的图像。DALL-E精通多种艺术风格,包括插画和山水画。它还可以生成文本、标记建筑物以及分离同一场景的草图线条和全彩图像。研究人员将这种影响深远的能力称为泛化——即算法并非专门针对一项任务或艺术风格的想法。OpenAI将算法的强大归功于两个主要因素:首先,算法庞大。它使用了120亿个参数,数量惊人。这些参数可以被认为是算法用来调整它理解想法的方式的旋钮。在分析图像和文本时,这120亿个参数可以提供令人难以置信的特异性。然后将此图像和文本材料输入算法并翻译成算法更容易理解的标记或文本。OpenAI解释说,令牌就像英文字母表中的一个字母——它们代表了更容易被机器计算的碎片化概念,并且它们以算法语言模式排列。该机器字母表包含16384个文本标记和8192个图像标记。这种将人类可读文本自动转换为机器可读文本的方法称为“转换器模型”。字幕或带文字的图像被转换为??算法,最多可翻译成256个token,而一张图像最多可翻译成1024个token。这使算法能够将相对较少的文本输入与更复杂的图像相匹配。之后,该算法通过分析成对的图像和说明进行演化。通过表面上数百万次的迭代,它能够将文本片段与图像的特定特征相关联。但OpenAI尚未公布数据集的大小或其中包含的图像。该公司并不是第一个尝试从文本生成图像的公司,甚至这也不是OpenAI的第一次尝试。这只是此类算法的最新版本,而且似乎最有效。虽然该公司尚未发布任何描述该系统的信息,但该算法的创建者确实在他们的博客上引用了DALL-E的前身。通过检查算法的谱系,我们可以追踪该技术的实际发展程度。OpenAI2016引用了这篇由密歇根大学和马克斯普朗克研究所撰写的论文,以激发当前对文本到图像生成的研究。本文使用生成对抗网络生成(简称GANs)来生成图像。GAN的功能是让两种算法相互竞争:一种生成图像,另一种拒绝不真实的图像。图片来源:Reed等。al2017一年后,罗格斯大学、里海大学和香港大学的研究人员对GAN采取了另一种方法——“堆叠”算法对。第一对算法列出场景的形状和颜色,第二对算法细化细节。资料来源:张等。al20192019年,另一个主要隶属于微软的团队尝试了一种不同的“两步走”方式。第一步是生成对象在场景中所处位置的图表,第二步是使用此图表作为指南来生成构成目标图像所需的对象。资料来源:李等。al2020去年年底,艾伦人工智能研究所发表了一项使用转换器模型的研究,该模型与OpenAI使用的相同。艾伦研究所的研究人员没有追求模型大小,而是依靠“隐藏”。在《麻省理工学院科技评论》上一篇详细解释这个概念的文章中,KarenHao将“隐藏”描述为“将不同的词隐藏在一个句子中,让模型填补空白”。在算法掌握了这些直观的飞跃之后,研究人员发现生成图像的质量有了显着提高。资料来源:Cho等人。回顾这些研究案例,我们可以发现OpenAI的DALL-E确实是一个飞跃。从一个模糊的斑点,最先进的技术已经发展到生产出鳄梨形状的椅子,OneZero专栏作家欧文威廉姆斯说他真的很想买。这些进步足以吓跑一代家具设计师、库存艺术家和其他互联网艺术家。