标准、递归、卷积和自动编码器网络随着深度学习的快速发展,已经创建了一整套神经网络架构来解决各种各样的任务和问题。虽然神经网络架构数不胜数,但这里有11条深度学习工程师必备的知识,分为四大类:标准网络、循环网络、卷积网络和自动编码器。所有数字由作者创建。标准网络1|感知器是所有神经网络中最基础的,也是更复杂的神经网络的基本构建块。它只连接输入单元和输出单元。2|前馈网络前馈网络是感知器的集合,其中存在三种基本类型的层——输入层、隐藏层和输出层。在每次连接期间,来自前一层的信号乘以权重,添加到偏差中,并通过激活函数。前馈网络使用反向传播来迭代更新参数,直到达到所需的性能。3|残差网络(ResNet)当网络太长而无法在整个网络中反向传播有用信息时,深度前馈神经网络的一个问题称为梯度消失问题。随着更新参数的信号通过网络传播,它会逐渐减小,直到网络前端的权重保持不变或根本被利用。为了解决这个问题,残差网络采用了跳过连接,它可以在“跳过”的层上传播信号。梯度消失问题可以通过使用不太敏感的连接来减少。随着时间的推移,网络在学习特征空间时学会恢复跳过的层,但训练效率更高,因为它不易受梯度消失的影响,并且需要探索的特征空间更少。循环网络4|递归神经网络(RNN)递归神经网络是一种特殊类型的网络,它包含自身的循环和递归,因此得名“递归”。RNN允许将信息存储在网络中,使用先前训练的推理来对即将发生的事件做出更好、更明智的决策。为此,它使用以前的预测作为“上下文信号”。由于其性质,RNN通常用于处理顺序任务,例如逐个字母地生成文本或预测时间序列数据(例如股票价格)。它们还可以处理任何大小的输入。>两种RNN可视化方法。5|长短期记忆网络(LSTM)RNN存在问题,因为在实践中上下文信息的范围非常有限。给定输入对隐藏层(以及网络输出)的影响(反向传播误差)在网络连接周围循环时呈指数级增长或消失为零。解决梯度消失问题的方法是使用长短期记忆网络或LSTM。这种RNN架构是专门为解决梯度消失问题而设计的,它用记忆块来拟合结构。这些模块可以被认为是计算机中的存储芯片——每个模块包含几个连接成环路的存储单元和三个门(input、outputandforget,相当于write、read和reset)。网络只能通过每个门与单元交互,因此门学会智能地打开和关闭以防止梯度爆炸或消失,同时也通过“恒定错误轮播”传播有用信息并丢弃不相关的存储内容。在标准RNN无法了解输入事件和目标信号之间存在大于5到10个时间步的滞后的情况下,LSTM不受影响,并且可以通过执行有用的恒定误差流来学习减少滞后。甚至进入1,000个时间步。6|回声状态网络(ESN)回声状态网络是循环神经网络的一种变体,具有非常稀疏的隐藏层(通常为1%的连通性)。神经元的连通性和权重是随机分配的,忽略层和神经元差异(跳过连接)。学习输出神经元的权重,以便网络可以生成和再现特定的时间模式。该网络背后的基本原理来自这样一个事实,即尽管它是非线性的,但在训练期间唯一修改的权重是突触连接,因此可以将误差函数区分为线性系统。卷积网络7|卷积神经网络(CNN)图像是高维的,因此训练一个标准的前馈网络来识别图像需要数万个输入神经元,除了明显的计算成本外,它还会导致许多与维数灾难相关的问题的神经网络。卷积神经网络(CNN)通过使用卷积层和池化层来帮助降低图像的维度,从而提供了一种解决方案。由于卷积层是可训练的,但参数比标准隐藏层少,因此它能够突出图像的重要部分并将它们向前传递。传统上,在CNN中,最后几层是处理“压缩图像信息”的隐藏层。卷积神经网络擅长基于图像的任务,例如将图像分类为狗或猫。8|反卷积神经网络(DNN)顾名思义,反卷积神经网络与卷积神经网络相反。DNN不是执行卷积来降低图像的维数,而是使用反卷积来创建图像,通常是从噪声中提取图像。这本身就是一项艰巨的任务。考虑一个CNN的任务是为奥威尔1984年的整本书写一个三句摘要,一个DNN的任务是用三句结构写整本书。9|生成对抗网络(GAN)生成对抗网络是一种专门用于生成图像的特殊网络,它由两个网络(鉴别器和生成器)组成。鉴别器的任务是区分图像是从数据集中提取的还是由生成器生成的,而生成器的任务是生成足够有说服力的图像,使鉴别器无法分辨它是否真实。随着时间的推移和谨慎的监管,这两个对手相互竞争,相互推动,并设法相互提高。最终结果是一个训练有素的生成器,可以吐出逼真的图像。鉴别器是一个卷积神经网络,其目的是最大化识别真/假图像的准确性,而生成器是一个反卷积神经网络,其目的是最小化鉴别器的性能。>发电机图。自动编码器10|自动编码器(AE)自动编码器的基本思想是获取原始高维数据,将其“压缩”为信息量高的低维数据,然后将压缩后的形式投影到新的空间中。自动编码器有很多应用,包括降维、图像压缩、去噪数据、特征提取、图像生成和推荐系统。它既可以用作无监督方法,也可以用作监督方法,并且可以非常深入地了解数据的性质。隐藏单元可以替换为适合处理图像的卷积层。11|变分自动编码器(VAE)自动编码器学习输入的压缩表示,它可以是图像或文本序列,例如,通过压缩输入然后将其解压缩以匹配原始输入,而变分自动编码器(VAE)学习其参数代表数据的概率分布。它不仅学习表示数据的函数,还获取更详细、更细粒度的数据视图、分布样本并生成新的输入数据样本。从这个意义上说,它更像是一种纯粹的“生成”模型,比如GAN。VAE使用概率隐藏单元,将径向基函数应用于测试用例和单元平均值之间的差异。
