当前位置: 首页 > 科技观察

纯干货-深度学习研究综述

时间:2023-03-22 13:15:24 科技观察

一、深度学习说到深度学习,估计只要接触过,就会一知半解。事实上,深度学习是机器学习领域的一个新的研究方向。处于起步阶段,在语音识别、计算机视觉等各种应用领域都取得了突破,尤其是在语音领域。动机是建立一个模型来模拟人脑的一般结构。在处理训练数据(图像、语音或文本)信号时,通过多个变换阶段对数据特征进行层次化描述,进而给出数据的表达形式。以图像数据为例,灵长类视觉系统对此类信号的处理过程如下:首先检测边缘、纹理等简单的初始形状特征,然后逐渐形成更复杂的视觉形状。类似地,深度学习将低层特征结合起来形成更抽象的高层表示、属性类别或特征,给出数据的层次特征表示。作为深度学习的“深度”,你是怎么理解的???深度学习之所以被称为“深度”,其实是相对于那些传统的机器学习而言的。就像我们的模型更深一样,在学习过程中,非线性操作的层数比以前多了很多。浅层学习主要依靠人工特征,即依靠人工过去的经验来提取数据特征。模型学习后的特征表示是单层特征,没有层次结构。深度学习是从原始输入数据中逐层提取特征,将样本数据在原始数据空间中的特征表示转换到一个新的特征空间中(就像SVM对于线性不可分的情况,可以用kernel将原始数据的特征空间投影到更高的空间进行表达),然后自动学习得到层次化的特征表示,更有利于物体的分类或特征的可视化。深度学习理论的另一个理论动机是:如果一个函数可以用K层结构的紧凑形式表示,那么它可能需要指数数量的参数(相对于输入信号)用K-1表示层次结构,泛化能力不足。深度学习的概念最早由G.E.提出。欣顿等人。2006.主要是机器学习过程,通过一定的训练方法得到样本数据,得到多层网络结构。传统的神经网络随机初始化网络中的权值,导致网络很容易收敛到局部最小值。为了解决这个问题,Hinton提出使用一种无??监督的预训练方法来优化网络权值的初始值,然后对权值进行微调。方法,拉开了深度学习的序幕。事实上,深度学习是通过大量单个神经元的结构,每个神经元又与大量其他神经元相连接。连接强度就是我们所说的权重,它是在训练和学习过程中不断修改和确定网络的特定功能。.深度神经网络由多个单层非线性网络组成。常见的单层网络按照编码和解码分为三类:只有编码器部分,只有解码器部分,编码器部分和解码器部分。设备部分。编码器提供从输入到隐藏特征空间的自底向上映射,解码器将隐藏特征映射到输入空间,目标是重建尽可能接近原始输入的结果。单层卷积的转化过程:2.深度学习应用深度学习在很多领域都得到了大力发展,尤其是语音、图像、视频等领域,比以往的方法都要好。现在比较流行的技术有人脸检测识别(扫脸)、智能管理(考勤、车牌检测、监控)、体检预测(脑电波回传图可以预测疾病等)。下面根据处理的不同类型的数据来介绍深度学习的应用。5.1深度学习在语音识别、合成和机器翻译中的应用微软研究人员利用深度信念网络直接对数千个senones(比音素小得多的建模单元)进行建模,并提出了第一个成功应用于大型语境的上下文相关深度神经网络-词汇语音识别系统——隐马尔可夫混合模型(CD-DNN-HMM),比之前基于常规CDGMM-HMM的state-of-the-art大词汇语音识别系统相对错误率降低了超过16%。然后在包含300h语音训练数据的Switchboard标准数据集上评估CD-DNN-HMM模型。基准词错误率为18.5%,与之前最先进的传统系统相比,相对错误减少了33%。H.Zen等人提出了一种基于多层感知器的语音合成模型。该模型首先将输入文本转换为输入特征序列,输入特征序列的每一帧通过多层感知器映射到自己的输出特征,然后生成语音参数,最后通过声纹合成生成语音。训练数据包含33000条专业女性演讲者用美式英语录制的语音素材,合成结果的主观评价和客观评价均优于基于HMM方法的模型。K.Cho等人提出了一种基于递归神经网络(RNN)的向量化定长表示模型(RNNenc模型),应用于机器翻译。该模型包含2个RNN。一个RNN用于将一组源语言符号序列编码为一组固定长度的向量,另一个RNN将向量解码为一组目标语言符号序列。在此模型的基础上,D.Bahdanau等人。克服定长的缺点(定长是其效果提升的瓶颈),提出了RNNsearch模型。当模型翻译每个词时,它会根据该词在源文本中的位置作为最相关的信息和已翻译的其他词来预测该词的目标词。该模型由作为编码器的双向RNN和用于单词翻译的解码器组成。在进行目标词位置预测时,使用多层感知器模型进行位置对齐。使用BLEU评价指标,RNNsearch模型在ACL2014MachineTranslationWorkshop(ACLWMT2014)提供的英/法双语平行语料上的翻译结果高于RNNenc模型的分数,略低于传统的phrase-基于翻译系统Moses(它本身包含一个包含4.18亿个单词的多语言语料库)。此外,RNNsearch在排除包含未知词汇句子的测试预测库方面的得分甚至超过了Moses。5.2深度学习在图像分类识别中的应用5.2.1深度学习在大规模图像数据集上的应用A.Krizhevsky等人首先将卷积神经网络应用于ImageNet大规模视觉识别挑战赛(ImageNetinthelargescalevisualrecognition挑战赛(ILSVRC),经过训练的深度卷积神经网络在ILSVRC-2012挑战赛的图像分类和目标定位任务中取得第一名,其中在图像分类任务中,前5个选项的错误率为15.3%,远低于第二名26.2%的错误率;在目标定位任务中,前5个选项的错误率为34%,也远低于第二名的50%。在ILSVRC-2013比赛中,M.D.Zeiler等人采用了卷积神经网络的方法,改进了文献的方法,在每个卷积层上附加了一个反卷积层,用于对th的特征进行可视化e中间层,并获得了图像分类任务的第一名。前五个选项的错误率为11.7%,如果使用ILSVRC-2011数据进行预训练,错误率降低到11.2%。在目标定位任务中,P.Sermanet等人。使用卷积神经网络结合多尺度滑动窗口方法同时进行图像分类、定位和检测。他们是比赛中唯一一支同时参与所有任务的队伍。在多目标检测任务中,获胜团队的方法在特征提取阶段没有使用深度学习模型,仅在分类时使用卷积网络分类器进行重新评分。在ILSVRC-2014比赛中,几乎所有参赛队伍都使用了卷积神经网络及其变形方法。其中,GoogLeNet团队使用卷积神经网络结合赫布理论提出的多尺度模型,分类误差为6.7%,获得图形分类“指定数据”组第一名;CASIAWS团队采用弱监督定位与卷积神经网络相结合的方法,在图分类的“额外数据”类别中取得第一名,分类错误率为11%。在目标定位任务中,基于深度学习框架Caffe,VGG团队使用三个不同结构的卷积神经网络进行平均评价,以26%的定位错误率获得“指定数据”组第一名;Adobe小组选择了额外的2000类ImageNet数据来训练分类器,并使用卷积神经网络架构进行分类和定位。它以30%的错误率获得了“额外数据”组的第一名。在多目标检测任务中,国大团队采用改进的卷积神经网络(networkinnetwork,NIN)等多种方法,平均精度(mAP)达到37%。提供的数据”组;GoogLeNet以44%的平均准确率获得“额外数据”组的第一名。从首次应用深度学习到ILSVRC挑战赛取得优异成绩,再到2014年几乎所有参赛队伍都采用深度学习方法并将分类错误率降低至6.7%的挑战赛。与传统的人工提取特征的方法相比,在图像识别领域具有很大的优势。5.2.2深度学习在人脸识别中的应用基于卷积神经网络的学习方法,香港中文大学的DeepID项目和FB的DeepFace项目在室外人脸识别中的应用(野外标注人脸,LFW)数据库人脸识别正确率分别为97.45%和97.35%,仅略低于人类识别97.5%的正确率。DeepID项目采用4层卷积神经网络(不含输入层和输出层)结构,DeepFace采用5层卷积神经网络(不含输入层和输出层,其中最后3层不使用权值共享获得不同局部统计特征)结构。之后,使用基于卷积神经网络的学习方法,香港中文大学的DeepID2项目将识别率提高到99.15%,超过了目前所有领先的深度学习和非深度学习算法在LFW数据库上的识别率以及人类对数据库的识别率。识别率。DeepID2项目采用与DeepID项目类似的深度结构,包括4个卷积层,其中第3层使用2×2邻域的局部权重共享,第4层不使用权重共享,输出层与第3、2层全部4层全连接。5.3深度学习在视频分类和行为识别中的应用A.Karpathy等人。提供了一种应用于基于卷积神经网络的大规模视频分类的经验评估模型。Sports-1M数据集YouTube视频数据的100万段分为487个类别。该模型使用4种时空信息融合方法来训练卷积神经网络。融合方式有单帧、非相邻两帧(后期融合)、相邻多帧(早期融合)和多阶段相位相邻多帧(慢速融合);此外,还提出了多分辨率网络结构,大大提高了神经网络在应用于大规模数据时的训练速度。该模型在Sports-1M上的分类准确率为63.9%,与基于人工特征的方法(55.3%)相比有了很大的提升。此外,该模型表现出良好的泛化能力。单独使用slowfusion融合方法得到的模型在UCF101动作识别数据集上的识别率为65.4%,而该数据集的基准识别率为43.9%。S.Ji等人提出了一种用于动作识别的3D卷积神经网络模型。该模型使用三维卷积在空间和时间序列上提取特征,从而获得多个相邻帧之间的运动信息。该模型根据输入帧生成多个特征图通道,并结合所有通道的信息得到最终的特征表示。三维卷积神经网络模型在TRECVID数据上优于其他方法,表明该方法对真实环境数据有更好的效果;该模型在KTH数据上的性能不如其他方法,原因是为了简化计算。输入数据的分辨率。M.Baccouche等人。提出了一种时间深度学习模型,可以在没有任何先验知识的情况下学习对人类行为进行分类。该模型的第一步是将卷积神经网络扩展到三维时空特征的自动学习。接下来使用RNN方法训练对每个序列进行分类。该模型在KTH上的测试结果优于其他已知的深度模型,在KTH1和KTH2上的准确率分别为94.39%和92.17%。其实深度学习的应用远不止这些,但本文只是从数据的维度(音频文本,一维;图像,二维;视频,三维;dimensional),目的是为了突出深度学习带来的优越性能及其对不同数据的应用能力。其他应用包括图像超分辨率重建、纹理识别、行人检测、场景标记、门牌号识别等。3.深度学习的问题和趋势深度学习算法在计算机视觉(图像识别、视频识别等)中的应用。)进一步研究:未标注数据的特征学习目前,标注数据的特征学习仍占主导地位,现实世界中存在海量未标注数据。将这些未标记的数据一一添加人工标签显然是不现实的。因此,随着数据集和存储技术的发展,无标签数据的特征学习和无标签数据自动标注技术的研究将越来越受到重视。模型大小、训练速度和训练准确率之间的权衡一般来说,在相同的数据集下,模型大小越大,训练准确率越高,训练速度也会越慢。比如一些模型方法采用ReLU非线性变换和GPU运算,在保证精度的前提下,往往需要5-7天的训练时间。离线训练虽然不影响训练后模型的应用,但是对于模型优化,比如模型大小调整、超参数设置、训练时调试等,训练时间会严重影响其效率。因此,如何在保证一定训练精度的前提下提高训练速度,仍然是深度学习方向的研究课题之一。与其他方法的集成从以上应用实例可以发现,单一的深度学习方法往往不能带来最好的结果,通常结合其他方法或多种方法进行平均评分会带来更高的准确率。因此,深度学习方法与其他方法的融合具有一定的研究意义。