当前位置: 首页 > 科技观察

启发现代人工智能艺术的物理原理,探索生成式人工智能的可能性才刚开始

时间:2023-03-15 08:39:35 科技观察

启发现代人工智能艺术的物理原理,对生成人工智能可能性的探索才刚刚开始吐出超现实的画面。该程序在训练期间遇到了海滩、金鱼和可口可乐的图像,但不太可能同时看到这三者的图像。然而,DALL·E2可以将这些概念组合成令达利感到自豪的东西。DALL·E2是一个生成模型——一个尝试使用训练数据来生成在质量和多样性方面与数据相媲美的新事物的系统。这是机器学习中最困难的问题之一,到达这一点是一段艰难的旅程。第一个重要的图像生成模型使用了一种称为神经网络的人工智能方法——一种由称为人工神经元的计算单元层组成的程序。但即使它们的图像质量变得更好,模型也被证明不可靠且难以训练。与此同时,一个强大的生成模型——由一位对物理学充满热情的博士后研究员创建——一直处于休眠状态,直到两名研究生取得技术突破,让这头野兽复活。DALL·E2就是这样一头野兽。使DALL·E2及其竞争对手StableDiffusion和Imagen的图像成为可能的关键洞察力来自物理世界。支撑它们的系统称为扩散模型,主要受到非平衡热力学的启发,非平衡热力学支配着流体和气体的扩散等现象。“有很多技术最初是由物理学家发明的,现在在机器学习中非常重要,”OpenAI的机器学习研究员YangSong说。这些模型的威力震撼了业界和用户。“对于生成模型来说,这是一个激动人心的时刻,”加州理工学院计算机科学家兼Nvidia机器学习研究高级主管AnimaAnandkumar说。虽然扩散模型创建的逼真图像有时会延续社会和文化偏见,但“我们已经证明生成模型对下游任务很有用[这些]提高了预测人工智能模型的公平性,”她说。理解如何为图像创建数据的可能性很大,让我们从一个仅由两个相邻灰度像素组成的简单图像开始。我们可以根据每个像素的阴影(从0是全黑到255是全白)用两个值来完整描述这个图像。您可以使用这两个值将图像绘制为二维空间中的一个点。如果我们将多个图像绘制为点,就会发生聚类——某些图像及其对应的像素值比其他图像更频繁地出现。现在想象平面上方有一个表面,表面的高度对应于簇的密度。表面绘制概率分布。您最有可能在表面最高部分下方找到单个数据点,而在表面最低部分下方的情况极少。DALL·E2拍摄了金鱼在沙滩上啜饮可口可乐的画面。这个由OpenAI创建的程序可能从未遇到过类似的图像,但它仍然可以自行生成它们。现在您可以使用此概率分布来生成新图像。您需要做的就是随机生成新的数据点,同时遵守更频繁地生成更多可能数据的约束——这个过程称为“采样”分布。每个新点都是一个新图像。同样的分析适用于更逼真的灰度照片,比如每张一百万像素。只是现在,绘制每个图像需要的不是两个轴,而是一百万个。这种图像的概率分布将是数百万加一维表面。如果您对该分布进行采样,您将产生一百万个像素值。将这些像素打印在一张纸上,图像很可能看起来像原始数据集中的照片。生成建模的挑战是为构成训练数据的某些图像集学习这种复杂的概率分布。该分布之所以有用,部分原因是它捕获了有关数据的广泛信息,部分原因是研究人员可以结合不同类型数据(例如文本和图像)的概率分布来组成超现实的输出,例如金鱼在沙滩上啜饮饮料可口可乐。“你可以混合和匹配不同的概念......以创建训练数据中从未见过的全新场景,”Anandkumar说。2014年,一种称为生成对抗网络(GAN)的模型成为第一个生成逼真图像的模型。“这太令人兴奋了,”Anandkumar说。但是GAN很难训练:它们可能无法学习完整的概率分布,并且可能只能从分布的子集生成图像。例如,在各种动物图像上训练的GAN可能只会生成狗的图片。机器学习需要更强大的模型。JaschaSohl-Dickstein的作品灵感来自物理学,他将提供答案。JaschaSohl-Dickstein。兴奋点在GAN发明前后,Sohl-Dickstein是斯坦福大学的一名博士后,从事生成模型研究,同时对非平衡热力学也很感兴趣。物理学的这个分支研究不处于热平衡状态的系统——那些在内部和与环境交换物质和能量的系统。一个说明性的例子是一滴蓝色墨水通过一个水容器扩散。起初,它在一个地方形成一个黑点。此时,如果您想计算在容器的某个小体积中找到墨水分子的概率,您需要一个概率分布来清楚地模拟墨水开始扩散之前的初始状态。但这种分布很复杂,因此很难从中抽样。然而,最终墨水扩散到整个水面,将水变成淡蓝色。这允许通过简单的数学表达式描述更简单、更均匀的分子概率分布。非平衡热力学描述了扩散过程中每一步的概率分布。至关重要的是,每一步都是可逆的——通过足够小的步骤,您可以从一个简单的分布返回到一个复杂的分布。JaschaSohl-Dickstein基于扩散原理创建了一种新的生成建模方法。-AsakoMiyakawaSohl-Dickstein使用扩散原理开发了生成建模算法。这个想法很简单:该算法首先将训练数据集中的复杂图像转换为简单的噪声——类似于将一滴墨水变成漫射淡蓝色的水——然后教系统如何反转这个过程,将噪声转换为图像。这是它的工作原理。首先,该算法从训练集中获取图像。和以前一样,假设每个百万像素都有一些值,我们可以将图像绘制为百万维空间中的一个点。该算法在每个时间步为每个像素添加一些噪声,这相当于墨水在一个小时间步后的扩散。随着这个过程的继续,像素值与它们在原始图像中的值的相关性越来越小,像素看起来更像是噪声的简单分布。(该算法还在每个时间步将每个像素值向原点微移一点,原点在所有这些轴上都为零。这种微移防止像素值变得太大以至于计算机无法轻松处理。)对所有图像执行此操作数据集,百万维空间中点的初始复杂分布(无法轻易描述和采样)变成了围绕原点的简单正态分布点。“转换序列非常缓慢地将你的数据分布变成一个大噪音球,”Sohl-Dickstein说。这个“前向过程”为您提供了一个可以轻松采样的分布。接下来是机器学习部分:将来自前向传递的噪声图像输入神经网络,并训练它预测来自较早步骤的噪声较小的图像。它一开始会出错,所以你调整网络的参数让它做得更好。最终,神经网络可以可靠地将代表简单分布样本的噪声图像一直转换为代表复杂分布样本的图像。经过训练的网络是一个成熟的生成模型。现在你甚至不需要前向传播的原始图像:你有简单分布的完整数学描述,所以你可以直接从中采样。神经网络可以将这个样本——本质上只是静态的——变成类似于训练数据集中图像的最终图像。Sohl-Dickstein回忆起他的扩散模型的第一个输出。“你眯着眼睛说,[我认为那个彩色斑点看起来像一辆卡车],”他说。“我花了几个月的时间盯着不同的像素图案,试图看到我喜欢的结构,[它比我以前得到的更有条理。]我很兴奋。”展望未来Sohl-Dickstein2015的扩散模型算法,但仍远远落后于GAN的能力。虽然扩散模型可以对整个分布进行采样,而不会只吐出图像的一个子集,但图像看起来更糟,而且过程太慢。Sohl-Dickstein说:“我当时认为这并不令人兴奋。”论文地址:https://doi.org/10.48550/arXiv.1503.03585需要两个既不了解Sohl-Dickstein又不了解对方的同学将原作的点点滴滴与现代的如DALL·E2Diffusionmodels结合起来有关联。第一个是宋,当时他是斯坦福大学的博士生。2019年,他和他的导师发表了一种构建生成模型的新方法,该方法不估计数据(高维表面)的概率分布。相反,它估计分布的梯度(将其视为高维表面的斜率)。YangSong帮助提出了一种通过训练网络来有效地解释嘈杂图像的图像生成新技术。Song发现,如果他首先用不断增加的噪声水平扰动训练数据集中的每张图像,然后让他的神经网络使用分布的梯度预测原始图像,从而有效地对其进行去噪,他的技术效果最好。一旦经过训练,他的神经网络就可以从简单的分布中提取噪声图像,并逐渐将它们转换回代表训练数据集的图像。图像质量不错,但他的机器学习模型采样速度很慢。而且他在对Sohl-Dickstein的工作一无所知的情况下就这样做了。“我根本不知道扩散模型,”宋说。“在我们2019年的论文发表后,我收到了Jascha发来的一封电子邮件。他向我指出,[我们的模型]有着非常紧密的联系。”2020年,第二名学生看到宋作品的联系和意识可以改进Sohl-Dickstein扩散模型。JonathanHo最近完成了他的博士学位。在加州大学伯克利分校研究生成模型,但他仍在努力。“我认为这是机器学习中数学上最美丽的子学科,”他说。Ho使用Song的一些想法和神经网络领域的其他进展重新设计和更新了Sohl-Dickstein扩散模型。“我知道为了引起社区的关注,我需要让模型生成漂亮的样本,”他说。“我坚信这是我当时能做的最重要的事情。”他的直觉是正确的。Ho和他的同事在2020年的一篇题为“去噪的扩散概率模型”的论文中宣布了这种新的和改进的扩散模型。它很快成为一个里程碑,以至于研究人员现在将其简称为DDPM。在图像质量基准上——将生成图像的分布与训练图像的分布进行比较——模型匹配或超过所有竞争生成模型,包括GAN。大公司很快就注意到了。今天,DALL·E2、StableDiffusion、Imagen和其他商业模型使用DDPM的一些变体。JonathanHo及其同事结合了Sohl-Dickstein和Song的方法,实现了DALL·E2等现代扩散模型。现代扩散模型还有另一个关键要素:大型语言模型(LLM),例如GPT-3。这些是在互联网文本上训练的生成模型,用于学习单词而不是图像的概率分布。2021年,Ho(现在是一家隐形公司的研究科学家)和他在GoogleResearch的同事TimSalimans以及其他地方的其他团队展示了如何将来自LLM和图像生成扩散模型的信息结合起来使用文本(例如,“金鱼在沙滩上啜饮可口可乐”)来引导传播过程,从而引导图像生成。这种“引导扩散”过程是DALLE2等文本到图像模型成功的背后原因。“它们远远超出了我最疯狂的期望,”Ho说。“我不会假装我已经看到了这一切。”制造问题尽管这些模型很成功,但DALL·E2及其同类产品的图形仍然远非完美。大型语言模型可以在它们生成的文本中反映文化和社会偏见,例如种族主义和性别歧视。那是因为他们接受了从互联网上摘录的文本的训练,而这些文本通常包含种族主义和性别歧视的语言。学习此类文本概率分布的LLM充满了同样的偏见。扩散模型也在从互联网上获取的未经整理的图像上进行训练,这些图像可能包含类似的有偏见的数据。难怪将法学硕士与当今的交流模式相结合有时会产生反映社会弊病的形象。Anandkumar有个人经验。当她尝试使用基于扩散模型的应用程序生成自己的风格化头像时,她感到震惊。“这么多[很多]图像都被高度性感化了,”她说,“而它呈现给男性的却不是。”她并不孤单。这些偏差可以通过整理和过滤数据(鉴于数据集的大小是一项极其困难的任务)或通过检查这些模型的输入线索和输出来减少。“当然,仔细和广泛的安全测试是无可替代的”模型,Ho说。“这对该领域来说是一个重要的挑战。”尽管存在这些担忧,Anandkumar仍然相信生成建模的力量。“我真的很喜欢理查德·费曼的名言:[我无法创造的东西,我不明白],”她说。更好的理解使她的团队能够开发生成模型,例如,为代表性不足的预测任务类别生成合成训练数据,例如用于面部识别的较深肤色,这有助于提高公平性。生成模型还可以让我们深入了解我们的大脑如何处理嘈杂的输入,或者它们如何唤起心理图像并考虑未来的行动。构建更复杂的模型可以赋予AI类似的能力。“我认为我们才刚刚开始探索生成人工智能的可能性,”Anandkumar说。