当前位置: 首页 > 科技观察

那些深度学习《面试》你可能需要知道的

时间:2023-03-21 14:48:00 科技观察

那些你可能需要知道的深度学习《面试》?本文是对“那些深度学习你可能需要知道的《面试》”问题的回答。1.列举一些常用范数及其应用场景,如L0、L1、L2、L∞、Frobenius范数答案:p39-p40;p230-p236中也有正则化的应用2.简要介绍贝叶斯概率和频率论概率,以及统计中关于真实参数的假设。答案:p553。概率密度最好的逼近器答案:p67:3.10上面那一段4.简单介绍sigmoid、relu、softplus、tanh、RBF及其应用场景答案:sigmoid和softplus在p67;全部在p193-p1975中。雅可比矩阵、海森矩阵及其在深度学习中的重要性答案:p86-p926。KL散度是信息论中衡量的直观量答案:p747。数值计算中的计算上溢和下溢问题,比如softmax中的处理方法答案:p80-p818。与矩阵的特征值相关联的条件数(病态)指的是什么,以及梯度爆炸和梯度弥散的关系答案:p82;9.在基于梯度的优化问题中,如何判断梯度为0的零边界点是局部最大值/全局最小值还是鞍点,Hessian矩阵的条件数与梯度下降法的关系答案:p86-p9210.KTT方法和约束优化问题,主动定义约束答案:p93-p9511。模型容量、表示容量、有效容量、***容量概念答案:p111;p113;p114;p11512。正则化中的权重衰减和在特定条件下添加先验知识等价答案:p119;p13813。高斯分布广泛应用的原因答案:p63-p6414。***似然估计中最小化KL散度和最小化分布间交叉熵的关系答案:p13215。在线回归问题,使用高斯先验权重和权重衰减的MAP贝叶斯推理,以及正则化A:p138-p13916。稀疏表示,低维表示,独立表示A:p14717。列举一些不能基于maps(Gradient?)优化来最小化costfunction及其特点答案:p155最上面的一段18.在深度神经网络中,引入隐藏层,抛弃训练问题的凸性.有什么意义?答案:p191-19219。函数在一定区间内的饱和度和平滑度对梯度学习的影响答案:p16020。梯度爆炸的一些解决方案答案:p30221。***MLP的近似属性答案:p19822。在前馈网络中,深度和宽度的关系以及表示能力的差异答案:p200-p20123。为什么交叉熵损失可以提高带有sigmoid和softmax输出的模型的性能,而使用均方误差损失会有很多问题。分段线性隐藏层代替sigmoid的优缺点答案:p226;p22624。表明学习发展的初衷?并介绍其典型例子:autoencoder答案:p3-p4;p425。在正则化的过程中,为什么只对weight做regularpenalty而不是weightpenaltyforbiasAnswer:p23026。在深度学习神经网络中,考虑在所有层中使用相同权重衰减的利弊答案:p23027。在正则化过程中,权重衰减与Hessian矩阵中特征值的一些关系,以及与梯度弥散、梯度爆炸的关系答案:p231-23428。L1/L2正则化与MAP贝叶斯推理与高斯先验/对数先验的关系答案:p234-p23729。什么是Underconstrained,为什么大部分正则化都能使underconstrained欠定问题在迭代过程中收敛答案:p23930。模型训练时为什么要考虑在输入(隐藏单元/权重)中加入方差小的噪声,和正则变换的关系Answer:p240-p24331.共享参数的概念及其在深度学习中的广泛影响答案:p245;p25332。Dropout和Bagging集成方法的关系,以及Dropout的意义及其强大的原因答案:p258-p26833批量梯度下降法更新过程中,batchsize和各种更新的稳定性答案:p27934。如何避免深度学习中的病态条件、鞍点、梯度爆炸和梯度弥散答案:p282-p29335。SGD和学习率选择方法,带动量的SGD对Hessian矩阵病态条件和随机梯度方差的影响Answer:p294;p296-p30036。在初始化权重的过程中,各种网络结构中权重大小的影响,以及一些初始化方法;bias初始化答案:初始化权重:p301-p305;偏置初始化:p305-p30637。自适应学习率算法:AdaGrad、RMSProp、Adam等算法。答案:AdaGrad:p307;RMSProp:p307-p308;亚当:p308-p30938。二阶逼近法:牛顿法、共轭梯度法、BFGS等。答:牛顿法:p310-p313;共轭梯度:p313-p316;BFGS:p316-p31739。Hessian的标准化是针对高阶优化算法的意义答案:p318-p32140。卷积网络中平移等方差的原因,一些常见的卷积形式答:平移等方差:p338-p339;一些常见的卷积形式:p347-p35841。池化实践的意义答案:p342-p34742。循环神经网络很常见一些依赖循环,常见的输入输出,以及对应的应用场景回答:p378-p39543.seq2seq,gru,lstm等相关原理回答:seq2seq:p396-p397;格鲁:p411-p412;lstm:p408-p41144。采样在深度学习中的意义答案:p469-p47145。autoencoder与线性因子模型、PCA、ICA等的关系答:Autoencoder与线性因子模型:p489-p490;主成分分析:p490-p491;ICA:p491-p49346。自编码器在深度学习中的意义,以及一些常见的变形和应用答案:意思:p502-p503;常见变形:p503-p508;p509-p512;p521-p524应用:p515-p520;p524-p52547。受限玻尔兹曼机广泛应用的原因答案:p460:想了解更多的朋友注意这句话:SeeMohamedetal.(2012b)分析了这些模型成功的原因。48.稳定分布和马尔可夫链答案:p595-p59849。吉布斯采样原理答案:p59950。配分函数的解通常很难计算答案:p605,p606***51.几种参数估计的联系和区别:MLE/MAP/Bayesian答案:P134-P13952。半监督思维及其在深度学习中的应用答案:p541-p54653。CNN中通道在不同数据源下的含义示例答案:p360-p36254深度学习在NLP、语音、图像等领域的应用及一些常用模型答案:p452-p48555word2vec与glove的对比答案:GloVe与word2vec有何不同?;GloVe和Word2vec能叫深度学习吗?这两个模型的水平其实很浅;http://clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf这个问题没找到答案,我去quora和知乎上quora上的相关问题和一篇论文提到在一个答案中(如果有人在书中找到,请批评指正)56.为什么attention机制在深度学习的一些场景中被广泛使用,以及几种不同的情况答案:p475-p47657.wide&deep模型中的wideanddeep简介答案:https://arxiv.org/pdf/1606.07792.pdf书上没有找到这个问题的答案,于是去找原论文,论文图1有详细介绍。(如果有人在书中找到,请批评指正)58.核回归与RBF网络的关系答案:p14259。LSTM结构推导,为什么比RNN好?答案:p408-p41160。深度学习中普遍存在过拟合的一些解决方案或结构设计答案:p230-p268;包括:ParameterNormPenalties(参数范数惩罚);DatasetAugmentation(数据集增强);EarlyStopping(提前终止);ParameterTyingandParameterSharing(参数绑定和参数共享);BaggingandOtherEnsembleMethods(Baggingandotherintegrationmethods);辍学。还有批归一化。61、如何理解贝叶斯模型的有效参数数据会根据数据集的大小自动调整答案:关于非参数模型:p115-p116;非参数模型不依赖于特定的概率模型,其参数是无限维的。数据集的大小会影响模型如何使用更多或更少的参数对其进行建模。(我在书中没有找到确切的答案,如果有更好的答案,请联系我指正)