灰色图以这里为例。对于手写号码的图像,它由像素28*28灰图组成。如图所示:根据每个像素点的特定值,它可用于将其放置。构造一对灰色图,如上所示。因为灰图通道只有1个,也就是说,没有其他通道堆栈,因此,对于0-255的值,您得到的是0-1范围之间的二维数组。该小数点堆栈排列的二维阵列数据可以形成灰色图片。
颜色图,用于颜色图片,代表三个通道。根据我个人的理解,这三种颜色可以合并为任何其他颜色,因此这三个通道两个维数阵列可能会导致彩色图片。换句话说,对于红色,黄色和蓝色的三个频道,每个频道都是两个维数阵列类似于类似灰色的映射,以表示每个通道的数据组成。如下所示,这三个通道的组成是主观的:
由于完整连接层设计的大参数,当时提供硬件设备的能力不足,而卷积神经网络的出现可以更好地减少参数的总数,并参考人类人类的局部相关特征透视图和卷积的概念,其特定操作是乘以具有相同数量尺寸的矩阵的同一位置的数据,然后对这些乘法的所有乘法数据进行累积操作。该过程是卷积。信号处理中的数学公式是:对于卷积神经网络,计算卷积样品和卷积内核(这些卷积内核也称为过滤器)Essencethe卷积核可以从标量扩展到A 3x3矩阵,然后将其扩展卷积核用于使用输入矩阵中的相应元件。每次计算时,它被移动或几个正方形。在这种方式上,卷积核被用作输入矩阵上的移动窗口。在它们中,每个这样的卷积核代表了图片的特征,例如
对于简单的灰色图片,手写数据集的数据就是一个示例。它是通道的灰图,像素的组成为28*28。现在有一张照片的照片。
对于这样的图片,现在选择过滤器(卷积核)和卷积计算将获得一个新矩阵,称为特征图
如果卷积矩阵为3x3,并且将步骤设置为1,则此新功能映射将为2626。如果将0添加到原始Minst图表的上部和左下,将成为3030矩阵,则相同的卷积映射为与功能地图相同。28*28的大小
而且,如果您使用n卷积内核(过滤器),然后将获得的特征映射叠加,则将获得n个通道卷积结果的多个卷积内核,该卷积结果代表原始图片以检测NDDREFURENT属性,因此该尺寸将增加,并且大小会增加这个维度取决于内核的数量。
该概念在下面区分:
input_channels:原始照片的颜色频道数量,灰色图片为1,颜色图片为3
kernel_channels:使用的卷积内核数
kernel_size:卷积核的基质大小
大步:卷积核的步骤,即卷积核运动之间的距离
填充:原始照片周围0湖0
某些参数的说明:
X:[B,3,28,28]
对于彩色图片,颜色的数量为3,而Minst图片的像素为28*28。其中,B代表B张明斯特
一个内核:[3,3,3]
对于卷积核,[3,3,3]中的最后两个3 3表示卷积核基质的大小,前3个对应于图片的颜色通道。由于颜色图片是rgb三三,所以三色图像具有RGB三个三分物种通道,如上图所示。对于对应于内核的每个通道,这三个通道构成了kernel_channels,也就是说,即第一个通道参数需要完全输入。
多内核:[16,3,3,3]
对于多卷积内核,也就是说,多个过滤器用于将原始图片作为功能提取。第一个参数表示使用16个过滤器。
偏见:[16]
每个kernel_channels都有偏见,因此,如果使用16个过滤器进行特征提取,则将使用16个偏见
OUT:[B,16,28,28]
原始输入数据是B照片,因此输出也将是B内容。16个代表16个过滤器获得的16个功能。因为设置了填充物,所以它仍然是28*28。
根据以下经验的解释,低级维度的提取是中间层的小小威构概念的一些低级别特征的概念。高水平是一些较高维度的概念。
代码
较低的采样是间隔采样操作以实现降低尺寸
对于单元的窗口,选择最高值作为输出值。除了最大池外,还有AVG池,这是单元窗口的值作为输出值测试代码:
实际上,Numpy或许多其他工具包都具有此类操作,但是Pytorch已封装了这样的功能以满足其自己的张量数据类型。管理操作是要实现放大功能的功能测试代码:
图像归一化大于一定值或小于特定值,因为Sigmoid函数不在有效范围内或梯度分散。
该方法的主要思想是将数据的大小集中在0附近,然后有一个相对较小的范围。对于彩色3频道图像,无通道有一个均值和差异,然后可以将其分布在根据计算公式接近0的区域。
批准归一化
假设输入数据为[6,3,784],则表明有6张颜色图片。每张图片的像素分布为28*28,批处理标准在通道上进行了统计处理。通道3的平均值,即三个平均值是基于3个通道的统计数据,并且存在3个正方形差异。
简而言之,根据通道数量计算批处理规范,并根据示例数量计算层标准的平均值。Square差异。
实例规范被计为当前实例的当前平均值。同样,假设输入数据为[6,3,784],则甚至6张照片和3个通道,因此它将使用6*3 = 18 18以下是18平方米。
批量规范的过程标准化:
测试代码:
out =图层(x)
layer.running_mean
layer.running_var
请注意,批处理规范的使用示例并退出,使用列车和tesafter行为需要调整TES的行为
LENET-5的卷积神经网络是1980的乘积。它具有两个卷积层和一个合并层,最后连接了两个完整的连接层。它由约5-6层组成。
Alexnet
因为当时的图形卡的性能并不出色,并且一件任务没有完成,因此有必要分为两个部分来训练以谈论内存的分布。输入图像为3个频道224*224。
模型特征:1)最大池操作,具有5个卷积层和3个完整连接层。3)使用Relu激活功能4)使用辍学来防止过度拟合5)具有一些良好的培训技术,包括数据增加,学习率策略,体重衰减等。
VGG vgg-nets是牛津大学有VGG(视觉几何组),层的数量高达16或19层,共有6个版本。
模型特征:1)更深的网络结构2)使用较小的3x3卷积核或1x1的小窗口
PS:1x1对维度的卷积验证已更改。这是因为输出的尺寸仅取决于使用多少卷积内核,并且输入的尺寸无关。
GoogleNet模型特征:1)使用较小的卷积浓度,33甚至11 2)使用全局平均池层3)使用多个不同尺寸的卷积内核来提取功能,然后将结果汇总到汇总
重置层的数量越高,当时的精度越高。有时,网络的层较高,精度率越低,并且重新系统可以解决此问题。浅层级别的准确性应较低。结构如下所示,即Resnet可以简化为VGG-19或其他网络
densenet densenet是根据ResNet扩展的,也就是说,背后的每一层不仅与上一层连接,而且还与所有以前的层相连。越来越大,您需要注意这一点
原始:https://juejin.cn/post/7096294090551066632