从贝叶斯角度，看深度学习的属性和改进方法

时间：2023-03-12 18:08:45 科技观察

从贝叶斯的角度看深度学习的性质和改进方法贝叶斯的观点将深度学习看作是广义线性模型的堆栈，提供了一些新的研究视角和应用方向。首先，论文首先从叠加单变量半仿射函数构建高维图谱的方法对深度学习进行了阐述，然后从深度概率模型、贝叶斯预测器到算法问题进一步探讨了其特点。机器之心编译介绍了本文的部分内容。论文地址：https://arxiv.org/abs/1706.00473。深度学习是一种对非线性高维数据进行降维和预测的机器学习方法。从贝叶斯概率的角度描述深度学习会产生很多优势，即从统计的解释和性质、优化和超参数调整的更有效算法、预测性能的解释等方面进一步阐述。同时，传统的高维统计技术：主成分分析（PCA）、偏最小二乘法（PLS）、降阶回归（RRR）、投影寻踪回归（PPR）等方法在shallowlearners中都会用到。)显示该部分。这些传统降维方法的深度学习形式可以通过多层数据降维来实现较大的性能提升。随机梯度下降(SGD)通过训练、优化和Dropout(DO)选择模型和变量。贝叶斯正则化（Bayesianregularization）的核心是寻找最优网络并提供最优的偏差-方差权衡框架以实现良好的样本性能。我们还讨论了高维结构良好的贝叶斯预测变量。为了展示我们的方法，我们分析了Airbnb***国际预订样本。***，我们讨论这项研究的未来方向。1.简介深度学习（DL）是一种使用分层隐变量的机器学习方法。深度学习可以被视为一种概率模型，其中条件均值被指定为广义线性模型(sGLM)的堆栈。深度学习是一种对非线性高维数据进行降维的解决方案。其理论基础来自Kolmogorov将多元响应曲面表示为单变量半仿射函数的叠加。深度学习自然更像是一种算法而不是概率模型，因此我们希望通过提供深度学习范式的贝叶斯视角来促进对某些方面的理解和研究，例如更快的随机算法、优化的参数调优方法和可解释性模型等.从经验来看，深度学习的改进主要来自三个部分：新的激活函数，例如使用ReLU替代历史上一直使用的深度Sigmoid函数架构，以及使用dropout作为变量选择技术。图形处理单元（GPU）和张量处理单元（TPU）大大加快了传统训练和评估模型的计算效率1.1深度学习机器学习训练一个预测器，在给定高维输入X的情况下得到输出Y。因此，一个学习者是输入和输出之间的映射。其中输出Y=F(X)，输入空间X是高维空间，即我们可以表示为：输出Y可以是回归问题中的连续值，也可以是分类问题中的离散值问题，当然也可以两者混合。例如在分类问题中，我们需要学习一个映射F:X→Y，其中Y∈{1,...,K}指向不同的类。所以预测器可以定义为：为了构建一个多元函数F(X)，我们需要一步步构建模块。首先我们让f1到fl是单变量激活函数，因此半仿射激活规则由以下等式给出：给定L层，堆叠（复合）预测可以定义为：因此，给定对于一定数量的层我们的深度预测器变成了复合图：简而言之，高维图F可以通过单变量半仿射函数的叠加来建模。与经典基础分解类似，这种深度方法使用单变量激活函数分解高维输入矩阵X。为了选择隐藏单元（也称为神经元）的数量Nl，我们在每一层使用dropout。偏置向量是必不可少的，例如我们的函数f(x)=sin(x)使用没有常数项的b甚至不能逼近像cos(x)这样的函数，而偏置项（即sin(x+π/2)=cos(x))可以轻松解决这样的问题。现在定义Z(l)指代神经网络的第l层，因此输入向量X可以表示为Z(0)。最终输出是Y，它可以是数字或分类。因此，深度预测规则可以表示为：其中，图1展示了深度神经网络常用的架构，即前馈网络、自编码器、卷积网络、循环网络、长短期记忆和神经图灵机。一旦系统被训练获得高阶非零权重矩阵，就隐含了神经网络结构。图1：深度学习最常见的建模架构2.深度概率学习就概率而言，输出Y可以看作是概率模型产生的随机变量，预测器中的参数为权重w和参数b。现将负对数似然L定义为：L2范数是传统的最小二乘法，而交叉熵函数为多类逻辑分类提供了等效形式。正则化项λφ(W,b)可以在概率上解释为参数的负对数先验分布：深度预测器是正则化绝对后验估计(MAP)量，其中训练需要找到一个高度非线性的函数最好解决方案：通过训练数据优化对数后验函数，即针对复杂架构和大数据集采用张量法计算深度学习的主要梯度特征，节省计算资源。TensorFlow和TPU为多种神经网络架构提供了最佳框架。从统计的角度来看，我们注意到后验概率是高度多模态的，提供良好的超参数调整可能非常昂贵。显然，应用最先进的随机贝叶斯MCMC算法来提供更有效的方法是一个富有成果的领域。对于浅层架构，我们提出替代方法乘数(ADMM)作为优化问题的非常有效的解决方案。2.1用于模型和变量选择的DropoutDropout是一种模型选择技术，旨在避免训练过程中的过度拟合。Dropout的基本做法是以给定的概率p随机去除输入数据X的维度。因此，探索它如何影响潜在损失函数和优化问题具有指导意义。2.2Shallowlearners几乎所有的浅层数据降维技术都可以看作是由低维辅助变量Z和组合函数指定的预测规则组成的：因此高维数据降维的问题就是找到Z变量并正确估计Hierarchical功能（f1，f2）。在这些层次上，我们希望在不忽略有关预测输出Y的信息的情况下发现低维Z结构。2.3堆叠式自动编码器自动编码器是一种非常重要的数据降维方法。autoencoder是一种深度学习架构，其目的是复制X，使X=Y，然后通过瓶颈结构实现降维。这意味着我们选择一个模型。该模型旨在压缩必要的信息以重新创建X。3.寻找良好的贝叶斯预测器贝叶斯方法以多种方式解决了良好预测性能的问题。目标是找到良好的均方误差(MSE)预测：。图2：树核函数和随机森林核函数图3：50维球（50-dimensionalball）和二维图像的蒙特卡洛采样结果图4：Y～U(Bp)的边际分布直方图，其中p是不同维度的数量。图5：由具有ReLU激活的三个神经元定义的超平面。图6：三个不同数据集的树形架构（顶行）和深度学习架构（底行）的空间划分结果4.算法问题4.1Stochasticgradientdescent随机梯度下降（SGD）用于最大化损失的默认标准方法函数f(W,b)（即最大化似然函数），可用于查找深度学习的权重和偏差。SGD通过在第k次迭代更新时减去梯度?f(Wk,bk)的估计值来简单地最小化损失函数。该梯度可以通过应用于半仿射函数叠加的链式法则获得。它的近似梯度可以通过以下计算来估计：其中Ek?{1,...,T}和|Ek|是Ek中的元素数。当|Ek|>1，该算法称为批量SGD或简称为SGD。通常，子集E是通过循环{1,...,T}选择的连续元素，Ek+1=[EkmodT]+1。方向gk使用链式法则（即反向传播）计算，提供?f(Wk,bk)的无偏估计量。具体来说，我们有：在每次迭代中，SGD都会更新解决方案4.2学习浅层预测器传统因子模型使用K个隐藏因子的线性组合{F1,F2,...,Fk}：因子Fk和权重Bik可以通过求解以下等式得到：其中l等于1或2，即可以使用L1范数或L2范数。现在我们通过正则化惩罚来最小化重建误差（即准确性），以控制其他样本预测的方差偏差平衡。有许多现有的算法可以有效地解决此类问题。例如，如果使用L2范数和高效激活函数，则模型可以表示为神经网络模型。5.应用：预测Airbnb预订为了说明这种深度学习范例，我们使用Airbnb提供给Kaggle竞赛的数据集进行实验分析。该实验的目标是建立一个预测模型，该模型能够预测新用户将在哪个国家/地区进行***预订。图11：深度学习模型的预测准确性。图11(a)显示了仅使用预测目的地时的预测精度；(b)显示当预测国家在预测列表中排名前两位时正确预测的正确比例；(c)给出预测国家在预测列表中排名前三时正确预测的正确比例图12：XGBoost模型识别出的15个最重要的特征6.讨论深度学习可以看作是一种降维方案对于高维非线性数据。基于深度学习的贝叶斯概率模型是一种堆叠广义线性模型（GLM）。因此，它成功地阐明了使用SGD来训练深层结构，但同时SGD是一种一阶梯度方法，因此找到的后验模式仍然是一个非常高维的空间。深度学习通过采用正则化发挥重要作用的预测方法取得了成功。下面展示了贝叶斯深度学习未来可能应用的很多领域：异方差误差等。贝叶斯层次模型和深度学习有很多相似的优点。贝叶斯分层模型包括额外的随机层，因此也提供额外的可解释性和灵活性。另一种方法是结合近端算法和MCMC。梯度信息很容易通过链式法则（即反向传播算法）得到，现在已有很好的拟合现有神经网络的随机方法，如MCMC、HMC、proximalmethods、ADMMs等，可以大大减少深度学习。训练时间。与传统的贝叶斯非参数方法相比，在贝叶斯非参数方法中使用超平面进行超参数调整应该会产生良好的预测结果。深度学习在计算机软件中有很好的应用，可用于贝叶斯计算（纯MCMC模型计算太慢）。有更好的贝叶斯算法来调整超参数和优化。LangevindiffusionMCMC、proximalMCMC和HamiltonianMonteCarlomethods(HMC)可以用像Hessian信息这样的导数来表示。我们并不希望通过搜索整个值矩阵来获得均方误差，但我们可以进一步对这些参数添加正则化惩罚并将其纳入算法中。MCMC方法在过去的30年里有了很大的发展，有了高性能的计算，我们现在可以在大数据集上实现高维后验推理，贝叶斯推理现在也有同样的优势。此外，我们相信深度学习模型在很多应用场景中都有很大的潜力。例如，在金融领域，深度学习是一种非线性因子模型。每层捕捉不同的时间尺度效果。时空数据也可以看作是空间和时间上的图像。深度学习提供了一种用于恢复非线性复杂关系的模式匹配技术。【本文为栏目组织《机器之心》微信公众号《机器之心（id：almosthuman2014）》原文翻译】点击此处查看作者更多好文

上一篇：2020年Top10编程语言

下一篇：为什么过时的jQuery仍然是最流行的JS库？

从贝叶斯角度，看深度学习的属性和改进方法相关文章