苹果让机器训练机器，首篇人工智能论文揭秘【中文翻译全文】

时间：2024-05-22 13:07:30 科技赋能

报道来源：苹果公司编译：网易科技编译，经许可转载。

近日，苹果公司发布了第一篇关于人工智能（AI）的学术论文——《通过对抗训练学习模拟和无监督图像》（Learning from Simulated and Unsupervised Images through Adversarial Training），主要描述了计算机中提高图像识别的方法视觉系统，也可能标志着苹果研究的新方向。

查看本文英文原文，请回复“Apple AI Paper”到Zhidixcom（公众号：zhidxcom）下载。

以下为报告全文：摘要随着图形技术的不断进步，使用合成图像训练机器学习模型变得越来越容易，这有助于避免注释图像的昂贵支出。

然而，由于合成图像与真实图像之间存在差异，通过合成图像训练机器学习模型可能不会取得令人满意的结果。

为了减少这种差异，我们提出了“模拟+无监督”的学习方法，通过计算机生成的图像或合成图像来训练算法的图像识别能力。

事实上，这种“模拟+无监督”学习需要将未标记的真实图像数据与已经注释的合成图像相结合。

在很大程度上，它需要依赖于生成对抗网络（GAN）的新机器学习技术，该网络使两个神经网络相互对抗以生成更真实的图像。

我们对标准 GAN 算法进行了几项关键修改，以保留注释、避免伪影并稳定训练：自正则化、局部对抗性损失、使用精细图像升级鉴别器。

我们发现这个过程可以产生高度逼真的图像，并在质量和用户研究中得到验证。

我们通过训练模型来评估眼睛水平和手势姿势，对计算机生成的图像进行定量评估。

我们的图像识别算法通过使用合成图像取得了巨大的进步。

我们在 MPIIGaze 数据集上获得了最先进的结果，而无需使用任何标准的真实数据。

简介随着近年来大容量深度神经学习网络的兴起，大规模带注释的训练数据集变得越来越重要。

然而，标准的大数据集非常昂贵且耗时。

为此，使用合成图像而不是真实图像来训练算法的想法开始出现，因为注释已经可以自动化。

使用 XBOX 外设 Kinect 评估人体姿势，其他任务都是使用合成数据完成的。

（图1：“模拟+无监督”学习：通过计算机生成图像或合成图像来训练算法的图像识别能力）但是，由于合成图像与真实图像之间的差距，使用合成图像来训练算法可能会带来很多问题。

由于合成图像通常不够真实，神经网络学习只能学习合成图像中的细节，而无法完全识别真实图像，从而无法为算法提供准确的学习。

一种解决方案是改进模拟器，但增加真实感的计算往往非常昂贵，渲染器的设计也更加困难。

此外，即使是最好的渲染器也可能无法模仿真实图像中的所有特征。

因此，缺乏真实感可能会导致算法过度拟合合成图像中不真实的细节。

在本文中，我们提出了一种“模拟+无监督”学习方法，其目的是使用具有未标记真实数据的模拟器来提高合成图像的真实性。

增加真实感可以更好地帮助训练机器学习模型，而无需收集任何数据或需要人类继续注释图像。

除了增加真实性之外，“模拟+无监督”学习还应该保留标注信息，用于训练机器学习模型。

例如，图1中的注视方向应保留。

此外，由于机器学习模型对合成数据中的伪影非常敏感，因此“模拟+无监督”学习也应该产生无伪影的图像。

我们开发了一种“模拟+无监督”学习的新方法，我们称之为 SimGAN，它可以使用我们称为“精炼网络”的神经网络来精炼模拟器中的合成图像。

这种方法的概述如图 2 所示：首先，在黑盒模拟器中生成合成图像，然后使用“细化器网络”进行细化。

为了增加真实性，这是“模拟+无监督”学习算法的首要要求，我们需要使用生成对抗网络（GAN）之类的东西来训练“精炼网络”，以产生判别网络无法产生的精炼图像辨别真假。

其次，为了保留合成图像上的注释信息，我们需要利用“自正则化损失”来补偿在合成图像和精炼图像之间修改的对抗性损失。

此外，我们利用在像素级别运行的完全卷积神经网络并保留全局结构，而不是全局修改图像的内容。

第三，GAN框架需要训练两个神经网络进行对抗，它们的目标往往不够稳定，容易产生伪影。

为了避免漂移并产生更强的伪影，使识别更加困难，我们需要将鉴别器的接收区域限制为局部接收而不是整个图像，这会导致每个图像产生多个局部对抗性损失。

此外，我们引入了通过使用精炼图像而不是当前“精炼网络”中的现有图像来升级鉴别器来提高训练稳定性的方法。

1.1 相关工作 GAN框架需要两个神经网络竞争损失，即生成器和判别器。

其中，生成器网络的目标是在真实图像上绘制随机向量，而判别器网络的目标是区分生成图像和真实图像。

GAN网络最早由I. Goodfellow等人提出，它可以帮助生成逼真的视觉图像。

从那时起，GAN 得到了许多改进并被投入到有趣的应用中。

（图 2：SimGAN 概述：我们利用“细化器网络”来细化模拟器生成的输出图像，最大限度地减少局部对抗性损失并执行自正则化。

对抗性损失可以欺骗鉴别器网络，使其将合成图像误认为是真实的图像，而自正则化最大限度地减少了合成图像和真实图像之间的差异，包括保留注释信息，并允许使用精炼图像来训练机器学习模型和判别器。

网络也将交替升级。

和A.古普塔（A. Gupta）使用结构化GAN来学习表面法线，然后将其与Style GAN结合起来生成自然的室内场景。

我们建议使用对抗性训练来进行循环生成模型训练。

此外，最近推出的iGAN可以帮助用户以交互方式更换图像。

CoGAN 由 M.-Y 开发。

刘等人。

与GAN结合可以以多种模态联合分发图像，而不需要图像元组，有利于联合发布解决方案的开发。

X. Chen等人开发的InfoGAN是GAN信息论的延伸，允许有意义的语句学习。

Oncel Tuzel等人利用GAN解决了人脸图像超高分辨率的问题。

C. Li 和 M. Wand 提出了用于高效纹理合成的马尔可夫 GAN。

W.洛特等人。

利用 LSTM 网络中的对抗性损失进行视觉序列预测。

L.于等人。

提出了 SeqGAN 框架来利用 GAN 强化学习。

最近的许多问题都显示了与生成模型领域相关的问题，例如 PixelRNN 使用 RNN 的 softmax 损失来预测像素顺序。

生成网络专注于使用随机噪声向量生成图像。

与我们的模型相比，它们生成的图像没有任何注释信息，因此不能用于训练机器学习模型。

许多工作正在探索将合成数据用于各种预测任务，包括注视评估、RGB 图像中的文本检测和分类、字体识别、对象检测、深度图像中的手部姿势评估、RGB-D 场景识别、城市场景的语义分割、人体姿势评估等A. Gaidon 等人的研究。

表明使用合成数据来训练深度神经网络可以提高其性能。

我们的工作通过使用未标记的真实数据提高模拟器的真实性来补充这些方法。

Y. Ganin 和 V. Lempitsky 在数据域适应设置中使用合成数据来了解合成图像和真实图像域变化期间保持不变的特征。

Z.王等人。

使用合成数据和真实数据来训练堆叠卷积码自动编码器，以了解其字体检测器 ConvNet 的低级表示。

X.张等人。

学习多通道编码以减少真实数据和合成数据之间的域转换。

与经典的域适应方法相比，经典的域适应方法采用特定的特征来适应特定的预测任务，我们可以通过对抗性训练来弥合图像分布之间的差距。

这种方法使我们能够生成非常逼真的图像，可用于训练任何机器学习模型并执行潜在的更多任务。

2.“模拟+无监督”学习模拟+无监督学习的目标是使用一组未标记的真实图像yi ∈ Y来学习可以细化合成图像X的细化器Rθ(x)，其中θ属于函数参数。

让我们将细化图像表示为在“模拟+无监督”学习中，最关键的要求是细化图像 X？使其看起来更像真实图像，同时保留来自模拟器的注释信息。

为此，我们建议通过最大化减少两个损失的组合来学习：其中 xi 是第 i 个合成训练图像，X 是相应的精炼图像。

第一部分是真实性成本，即为合成图像添加真实性的成本。

第二部分表示通过最小化合成图像细化中的差异来保留注释信息的成本。

在下面的部分中，我们扩展这个公式并提供优化 θ 的算法。

2.1 对抗性损失为了增加合成图像的真实感，我们需要在合成图形和真实图像的各个部分之间建立联系。

在理想情况下，细化器可能无法将给定图像分类为真实图像或高度细化的图像。

这需要使用对抗性判别器，即网络Dφ，它可以被训练来区分图像是真实图像还是精化图像，而φ是判别器网络参数。

对抗性损失训练细化网络 R，它负责欺骗 D 网络，使其将细化图像误认为是真实图像。

使用GAN方法，我们构建了涉及两个神经网络的极限博弈模型，并升级了“精炼网络”Rθ和判别器网络Dφ。

接下来，我们更精确地描述这个模型。

判别器网络通过最小化损失来更新参数：这相当于两级分类问题产生的交叉熵误差，其中 Dφ(.) 是合成图像输入，1 ? Dφ(.)是实像。

至此，我们已经实现了Dφ作为ConvNet的最终输出层，并且样本很可能是精炼图像。

为了训练这个网络，每个小批量随机抽取的样本都由精炼的合成图像和真实图像组成。

交叉熵的目标标签损失层对于每个 yj 为 0，对于每个 x?i 为 1。

然后通过随机梯度下降（SGD），用小批量梯度损失来升级 φ。

在我们的实践中，使用经过训练的判别器网络 D 的真实性损失函数如下：通过最小化归约损失函数，“细化器网络”的强大功能使判别器无法判断细化后的图像是合成图像。

除了生成逼真的图像之外，“精炼网络”还应该保存模拟器的注释信息。

例如，用于评估凝视的学习转变不应改变凝视的方向，并且手部姿势评估不应改变肘部位置。

这是使用配备模拟器注释信息的精细图像训练机器学习模型的必要组件。

为了实现这一目标，我们建议使用自正则化，最大限度地减少合成图像和精炼图像之间的差异。

（算法1）（图3：局部对抗性损失的说明。

判别器网络输出一个wxh概率图。

对抗性损失函数是局部块上交叉熵损失的总和。

）因此在我们的实现中，整体细化损失函数(1)为： (4) 当||.||1为L1范数时，我们将Rθ视为完全卷积神经网络，无需跳跃或池化。

在像素级别修改合成图像，而不是整体修改图像内容。

例如，在完全连接的编码器网络中就是这种情况，其中保留了全局结构和注释。

我们通过交替最小化 LR(θ) 和 LD(φ) 来学习精炼器和鉴别器参数。

当更新Rθ的参数时，我们保持φ固定，当更新Dφ时，我们保持θ恒定。

我们在算法1中描述了整个训练过程。

（图4：使用精细图像历史的示意图。