当前位置: 首页 > 科技观察

CNN与RNN的比较与组合

时间:2023-03-14 13:23:08 科技观察

CNN与RNN几乎占据了深度学习的半壁江山,所以本文将重点介绍CNN+RNN以及各种组合的比较。一、CNN与RNN的比较1、CNN卷积神经网络和RNN递归神经网络的可视化2、相同点:传统神经网络的延伸。正向计算出结果,反向计算模型更新。每一层神经网络在横向上可以有多个神经元并存,在纵向上可以有多层神经网络连接。3.不同点CNN空间扩展、神经元和特征卷积;RNN时间扩展,神经元和多次输出计算RNN可以用来描述时间上连续状态的输出,具有记忆功能,CNN用于静态输出CNN进阶100+深度,RNN深度有限2.CNN+RNN组合方法1.CNN特征提取,用于RNN句子生成图像标注。2.RNN特征提取用于CNN内容分类视频分类。3.CNN特征提取用于对话问答和图片问答。三、具体应用1、图像标注的基本思想:目标是生成标注句子,即句子生成任务。长短期记忆网络?描述物体的大量图像信息,图像信息表达,CNN?CNN网络中的全连接层特征描述图像,特征结合LSTM输入。具体步骤:(1)模型设计-特征提取采用全连接层特征描述原图LSTM输入:词+图片特征;输出下一个单词。(2)模型设计-数据准备图像CNN特征提取图像标注生成Word2Vect向量生成训练数据:图像特征+第n个词向量:第n+1个词向量。(3)模型训练:利用迁移学习、CNN特征、句子特征应用现有模型。最终的输出模型是LSTM。训练过程中的参数设置:梯度裁剪,学习率调整(自适应学习)训练时间很长。(4)模型操作:CNN特征提取CNN特征+句首,逐字预测2.视频行为识别:视频中发生了什么?常用方法总结:(1)RNN用于CNN特征融合:CNN特征提取LSTM判断识别结果分析。不同的特征有不同的输出。或者:所有特征作为一个输出。(2)RNN用于CNN特征筛选+融合:并不是所有的视频图像都包含一定的分类信息。RNN用于确定哪些帧对有用图像特征的融合有用。(3)RNN用于目标检测:CNN直接生成目标候选区域,LSTM对生成候选区域进行融合(相邻时刻的近似位置),确定最终的精确位置。(4)多模型综合:在应用中,为了产生最好的结果,往往会使用多模型集成。