随着深度神经网络技术的发展,新的网络架构也在不断涌现。来自普渡大学电子实验室的三位研究人员AlfredoCanziani、AbishekChaurasia和EugenioCulurciello最近在Medium上发表了一篇论文,描述了一种新型的深度神经网络,在视频分析中具有无监督学习、分割、场景分析和定位等功能。、时空表示、视频预测、表示预测、在线学习等能力,在很多方面也优于目前的热生成对抗网络(GAN)。新一代深度神经网络正在出现。它们是从前馈模型演化而来的,我们之前有详细分析过,见文章《重磅 | 神经网络架构演进史:全面回顾从LeNet5到ENet十余种架构(附论文)》或者机器之心更新的版本:https://medium.com/towards-data-science/neural-network-architectures-156e5bad51ba这种新型神经网络是从LeNet5/AlexNet及其变体的初始前馈模型演化而来的,包含了比ResNet/Inception更复杂的旁路方案。由于这些前馈神经网络将图像压缩和编码为更小的表示向量,因此它们也被称为编码器。新一代神经网络有两个重要的新特征:生成分支:也称为解码器,因为它们将表示向量投射回输入空间循环层:采取前一个时间步长将表示与当前时间的输入和表示相结合步骤很棒!但是这种额外的复杂性给我们带来了什么?它表明传统的前馈神经网络有很多局限性:高层次的下采样和空间分辨率的损失,特征/对象/类别的定位是有限的。无法对场景进行推理:通过将图像压缩成短的表示代码,它们会丢失有关图像组成以及图像或场景部分空间排列的信息。时间不稳定性:由于他们使用静止图像进行训练,因此当物体在空间中移动时,他们无法学习平滑的时空转换。它们可以识别某些图像(但不是全部)中的对象类型,并且对对抗性噪声和扰动非常敏感。不可预测:由于它们使用时间信息,前馈神经网络每帧提供一个新的表示代码,仅基于当前输入,但不预测接下来几帧会发生什么(注意:有一些例外,它们不是在视频上训练)为了克服这些限制,我们需要新一代神经网络,将学习到的表征投射回输入图像空间,并且可以在时间相干的图像序列上进行训练:我们需要在视频上进行训练。以下是新一代神经网络的高级特性:无监督学习——它们可以在视频上进行预训练以预测未来的帧或表示,因此需要较少的标记数据来训练和执行某些任务。分割——在图像中分割不同的物体场景解析——它在分割之后,如果数据集每个像素都有物体标签,用于自动驾驶和增强现实定位——在分割和完善物体边界之后,所有场景解析和分割网络都可以做空间-时间表示-使用视频进行训练,而不仅仅是静态图像,了解时间概念和时间关系视频预测-一些网络旨在预测视频中的未来帧表示预测-一些网络表示可以预测视频中的未来帧在线学习能力-通过检测预测和真实未来帧或表示之间的错误信号现在让我们看看这些新网络的细节和实现:生成阶梯网络这些模型使用编码器和解码器对将图像分成不同的部分和对象。例如:ENet、SegNet、Unet、DenseNet、LadderNetwork等等:ENet:https://arxiv.org/abs/1606.02147SegNet:https://arxiv.org/abs/1511.00561Unet:https://arxiv.org/abs/1505.04597DenseNet:https://arxiv.org/abs/1611.09326LadderNetwork:https://arxiv.org/abs/1507.02672下面是一个典型的3层模型:D模块是一个标准的feed-前向层。G模块是生成模块,类似于标准前馈层,但具有反卷积和上采样。他们还使用残差类型连接“res”将每个编码层的表示连接到解码层的表示。这迫使生成层的表示被前馈表示模块化,前馈表示具有更强的将场景定位和解析为对象和部分的能力。“x”是输入图像,“y”是同一时间步长的输出分割。这些网络可以执行分割、场景解析和精确定位,但不能在时域中运行,并且对过去的帧没有记忆。最近在每一层的编码器到解码器旁路帮助这些网络实现了最先进的性能。递归生成阶梯网络(Recursiveandgenerativeladdernetworks)是最新的深度神经网络之一,它在生成阶梯网络中加入递归,从而形成递归生成阶梯网络(REGEL)。REGEL是迄今为止最复杂的深度神经网络之一,至少在图像分析领域是这样。这是我们正在使用的REGEL的3层模型:D和G模块实际上与上面的生成阶梯网络中的模块相同。网络将循环路径“t-1”从每个G模块添加到同一层的每个D模块。网络将视频中的一系列帧作为输入x[t],在每个时间步预测视频的下一帧y[t+1],y[t+1]接近x[t+1],如果预测准确的话。由于网络可以测量其预测与真实下一帧之间的误差,因此它知道何时可以或不能预测输入。如果不是,它可以激活增量学习,这对于前馈神经网络是不可能的。所以网络本质上可以进行在线学习。我们认为这是机器学习的一个非常重要的特性,是预测神经网络的天赋。没有这个属性,网络就无法提供真实的预测置信度信号,也无法执行有效的增量学习。这些网络仍在研究中。我们的建议:继续关注他们!预测编码网络-第1部分递归生成网络是一种可能的预测模型。可以使用预测编码计算神经科学模型(predictivecodingcomputationalneurosciencemodel)作为替代方案,它可以提供预测能力,做成层次化的深度神经网络。这是一个2层模型的图示:Rao和Ballard在他们的NatureNeuroscience论文《Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects》和Friston的实现论文《Canonical microcircuits for predictive coding》中的模型都计算了A模块(类似于上面阶梯网络中的D模块)和错误e在R/Ay模块之间的每一层(类似于上面梯形网络中的G模块)。这个误差e表示网络预测每一层表示的能力。然后将错误e作为输入发送到下一层。R是卷积RNN/LSTM模块,Ay类似于A模块。R和Ay可以组合成一个循环模块。在第一层中,x是输入帧。该模型的问题在于该网络与标准的前馈神经网络非常不同。这些预测网络不是在更高层次上创建包含较低层特征的层次表示,而是计算前一层残差的表示。因此,它让人想起残差前馈网络,但在实践中,迫使这些网络向前传播错误并不允许它们在更高层学习有效的层次表示。因此,它们无法有效地执行其他任务,例如基于更高级别表示的分类、分割和动作识别。需要更多的实验来阐明这些局限性。该模型已经由BillLotter和DavidCox实现,参考PredNet:https://coxlab.github.io/prednet/预测编码网络——Spratling预测编码模型的第二部分是将表示y投影到上层层,而不是像以前的Friston模型那样投影误差e。这使得网络与分层前馈深度神经网络更加兼容,并且还避免了向更高层学习错误的时刻。这里给出了一个2级模型的说明:本质上,该模型可以重写并简化为我们之前提到的递归生成阶梯模型。这是因为R和Ay可以组合成一个循环模块。与生成对抗网络的关系生成对抗网络(GAN)现在是一种非常流行的模型,可以学习从数据分布中生成样本。这里提出的新网络模型优于GAN,原因如下:它们不是通过minimax游戏训练的,而是直接为有用的任务训练的,因此它们的判别器和生成器直接有用。他们可以学习创建有用的输入表示,同时生成新的输入。他们可以学习根据输入生成目标数据。生成器网络和鉴别器网络紧密绑定,从而消除了收敛问题。它的生成器可以提供近乎完美的照片级真实感的照片样本(见下图),相比之下GAN的结果就没那么好了。REGEL网络的预测能力示例-左:当前帧;中间:下一个真实帧;预测下一帧其他模型像REGEL这样??的模型让人想起Pixel递归网络及其许多实现(例如PixelCNN、PixelCNN++、WaveNet)。这些模型的目标是对输入数据的分布进行建模。(“我们的目标是估计自然图像的分布,并使用它来可跟踪地计算数据的可能性并生成新数据。”)他们只专注于生成新的逼真数据样本,但尚未展示学习表征的能力现实世界的任务。而且这些模型的推理速度也很慢。像素循环网络:https://arxiv.org/abs/1601.06759PixelCNN:https://arxiv.org/abs/1606.05328像素CNN++:https://openreview.net/pdf?id=BJrFC6cegWaveNet:https://deepmind.com/blog/wavenet-generative-model-raw-audio/其他:http://ruotianluo.github.io/2017/01/11/pixelcnn-wavenet/Summary这些新网络仍在研究和评估中。例如,最近的PredNet论文(https://arxiv.org/abs/1605.08104)给出了预测编码网络和阶梯网络的比较,其中PredNet在某些任务上表现更好。PredNet可用于使用高级表示进行目标人脸分类。此外,它还可以预测数据集中的转向角,但主要是在网络的第一层使用简单的动作过滤器。此任务不需要对特征进行层次分解。
