,将神经网络的局限性看成是无限多个残差层的组合。该视图提供了一种将其输出隐式定义为常量的方法,用于求解微分方程ODE。连续深度参数化将模型的规范与其计算分离。虽然范式的复杂性增加了,但这种方法有几个好处:(1)通过指定自适应计算的容错能力,计算成本可以以细粒度的方式换取准确性;(2)通过及时向后动态运行重构反向传播所需的中间状态的激活函数,可以使训练的内存成本显着降低。另一方面,神经网络的贝叶斯处理将典型的训练管道从执行点估计修改为推断参数分布。虽然这种方法增加了复杂性,但它会自动考虑模型的不确定性——模型平均可用于对抗过度拟合和改进模型校准,尤其是对于分布外的数据。最近,多伦多大学和斯坦福大学的一项研究表明,贝叶斯连续深度神经网络的替代构造具有一些额外的好处,开发了一种在连续深度贝叶斯神经网络中进行近似推理的实用方法。这篇论文的第一部作品是多伦多大学VectorInstitute本科生WinnieXu,第二部作品是NeurIPS2018最佳论文陈天琪,他们的导师DavidDuvenaud也是该论文的作者之一纸。InfiniteDepthBayesianNeuralNetwork》>论文地址:https://arxiv.org/pdf/2102.06559.pdf项目地址:https://github.com/xwinxu/bayesian-sde具体来说,研究考虑了无限深的每一层贝叶斯神经网络存在未知权重的局限性,因此提出了一类称为SDE-BNN(SDE-Bayesianneuralnetwork)的模型。该研究表明,使用Li等人(2020)描述的可扩展的基于梯度的方法,的变分推理方案可以有效地进行近似推理。在该方法中,输出层的状态由黑盒自适应随机微分方程(SDE求解器)计算,并训练模型以最大化变分下界。图belowshowsthisAneuralSDEparameterizationiscomparedwithastandardneuralODEapproach.这种方法保持了训练贝叶斯神经ODE的自适应计算和恒定内存成本。InfiniteDepthBayesianNeuralNetwork(BNN)一个标准的离散深度残差网络可以定义为以下形式的层的组合:InfiniteDepthBayesianNeuralNetwork">其中t是层索引,InfiniteDepthBayesianNeuralNetwork">表示隐藏层unitactivationvectoroflayert,inputh_0=x,infinitedepthBayesianneuralnetwork">表示层t的参数,infinitedepthBayesianneuralnetworkinadiscretesetting">通过设置infinitedepthBayesianneuralnetwork来研究一个神经网络network">并将限制设置为无限深的贝叶斯神经网络">以构建残差网络的连续深度变体。这产生了一个微分方程,将隐藏单元演化描述为深度t的函数。由于标准残差网络的每一层都用不同的权重参数化,因此本研究使用w_t来表示第t层的权重。此外,该研究还引入了一个超网络f_w,它将权重的变化指定为深度和当前权重的函数。然后将隐藏单元激活函数和权重的演化组合成一个微分方程:InfinitelyDeepBayesianNeuralNetworks》>WeightPriorProcess:本研究使用Ornstein-Uhlenbeck(OU)过程作为权重先验,其特点是SDE与漂移和扩散:无限深贝叶斯神经网络“>使用另一个具有以下漂移函数的SDE对权重近似后验进行隐式参数化:无限深贝叶斯神经网络”>该研究随后评估了边缘化网络权重和隐藏单元轨迹的必要性给定输入。这可以通过简单的蒙特卡罗方法完成,从后验过程中采样权重路径{w_t},并在给定采样权重和输入的情况下评估网络激活函数{h_t}。这两个步骤都需要求解微分方程,并且可以通过为增强状态SDE调用单个SDE求解器来同时完成这两个步骤:无限深度贝叶斯神经网络》>为了让网络拟合数据,研究最大化无限维ELBO给出的边际似然下界:无限深度贝叶斯神经网络》>采样权重、隐藏激活函数和训练目标都计算出来同时调用自适应SDE求解器。GradientEstimationwithReducedVariance本研究在路径空间KL中使用STL(stickingthelanding)估计器代替原来的估计器来拟合SDE设置:无限深贝叶斯神经网络”>方程(12)中的第二项是a期望值为零的鞅。在之前的工作中,研究人员只对第一项进行蒙特卡洛估计,但本研究发现这种方法不一定能减少梯度的方差,如下图4InfiniteDepthBayesianNeuralNetworks”>由于本研究提出的近似后验可以任意表达,研究人员推测如果参数化网络f_w具有足够的表达能力,该方法可以在训练结束时实现任意低的梯度方差。图4显示了几个梯度估计器的方差,比较了STL和“全蒙特卡罗”估计器。图4显示,当匹配指数布朗运动时,STL实现了比其他方案更低的方差。下面的表4显示了训练性能的改进。InfiniteDepthBayesianNeuralNetwork》>Experiment本研究的实验设置如下表所示。该研究在MNIST和CIFAR-10上进行了玩具回归和图像分类任务。此外,他们还研究了分布外泛化任务:infiniteDeepBayesianNeuralNetwork">为了比较求解器与伴随的反向传播,研究人员比较了固定和自适应步长SDE求解器,并比较了Li等人提出的随机伴随,图1。图5表明两种方法具有相似的收敛性:InfinitelyDeepBayesianNeuralNetworks”>1DRegression本研究首先验证了SDE-BNN在一维回归问题上的性能。以来自扩散过程的样本为条件,从1DSDE-BNN是从输入到输出的双向映射。这意味着从1DSDE-BNN采样的每个函数都是单调的。为了能够对非单调函数进行采样,研究使用状态的2个额外维度初始化为零以增加状态。图2显示该模型在合成的非单调一维数据集上学习了相当灵活的近似后验。InfinitelyDeepBayesianNeuralNetworks》>ImageClassification表1给出了图像分类实验的结果。SDE-BNN总体上优于基线,结果表明,连续深度神经ODE(ODEnet)模型在标准残差上可以达到相似的分类性能网络,校准很差。InfiniteDepthBayesianNeuralNetwork》>图6a演示了SDE-BNN的性能,图6b显示了与NeuralODE具有相似精度但更好校准的结果。InfiniteDepthBayesianNeuralNetwork》>表1与预期校准误差量化校准该模型。SDE-BNN似乎比神经ODE和平均场ResNet基线更好地校准。InfinitelyDeepBayesianNeuralNetworks">下面的图7显示了损坏的测试集相对于未损坏的数据的错误,显示了mCE随着扰动严重程度的增加而稳步增加,总体错误指标总结在表1中。在CIFAR10和CIFAR10上-C,SDE-BNN和SDE-BNN+STL模型实现了比基线更低的整体测试误差和更好的校准。“无限深度贝叶斯神经网络”>与标准基线(ResNet32和MFResNet32)相比,绝对腐败误差(CE)SDE-BNN减少了约4.4%。域外输入的学习不确定性的有效性表明,尽管没有接受多种形式的腐败训练,但SDE-BNN对观察扰动也更加稳健。
