《神经网络就像数数一样简单》、《卷积层只是一个蝙蝠信号灯》……在这篇文章中,一位爸爸从手写数字识别,我用这么简单的语言给8岁的女儿讲解“深度学习”。当然,也可以利用这篇文章向你的女朋友(如果你有的话)普及你自己的作品。机器学习,尤其是深度学习,是一个热门话题,你肯定会在媒体上看到流行语“人工智能”。然而,这些概念并不新鲜。第一个人工神经网络(ANN)是在40年代引入的。那么为什么最近的热门话题都是关于神经网络和深度学习的呢?我们将在有关GPU和机器学习的一系列博文中探讨这些概念。在80年代,我记得我父亲为银行支票开发字符识别工具。检查这么多不同类型的笔迹真的很痛苦,因为他需要一个方程式来适应所有的变化。在过去的几年中,解决此类问题的最佳方法显然是通过卷积神经网络。人为设计的方程式不再适合处理无限的手写模式。让我们看一个最经典的例子:建立一个数字识别系统,一个识别手写数字的神经网络。事实1:神经网络就像计数一样简单我们首先计算每个黑色手写数字中第一行中的红色形状出现了多少次。手写数字的简化矩阵现在让我们尝试通过计算具有相同红色形状的匹配项的数量来识别(推断)新的手写数字。然后,我们将其与上表进行比较,以确定该数字与哪个数字的关联最密切:匹配手写数字的形状恭喜!您刚刚构建了世界上最简单的用于识别手写数字的神经网络系统。事实2:图像只是一个矩阵计算机将图像视为矩阵。黑白图像是二维矩阵。让我们考虑一个图像。为简单起见,我们取一张数字8的黑白小图像,正方形大小为28像素。矩阵的每个单元格代表从0(代表黑色)到255(代表纯白色像素)的像素强度。因此,图像将表示为如下的28×28像素矩阵。手写数字8和相关强度矩阵的图像事实3:卷积层只是一个蝙蝠信标为了确定图片中显示的模式(这里是手写数字8),我们将使用一种蝙蝠信标/手电筒。在机器学习中,手电筒被称为过滤器。此过滤器用于执行常见图像处理软件(如Gimp)中使用的经典卷积矩阵计算。过滤器扫描图像以查找图像中的模式,如果匹配则触发正反馈。这有点像孩子的形状分类盒:三角形过滤器匹配三角形孔,方形过滤器匹配方形孔等。图像过滤器的工作方式类似于儿童形状分类盒。事实4:过滤器匹配是一项易于并行化的任务更科学地说,图像过滤过程看起来有点像下面的动画。正如你所看到的,过滤器扫描的每一步都是相互独立的,这意味着这个任务可以高度并行化。请注意,数十个过滤器将同时运行,因为它们彼此不依赖。https://github.com/vdumoulin事实5:尽可能多地重复过滤操作(矩阵卷积)我们刚刚看到输入图像/矩阵使用多次矩阵卷积进行过滤。为了提高图像识别的准确率,只需将之前操作过滤后的图像,并一次又一次地过滤......当然,我们过于简单化了,但通常你使用的过滤器越多,你重复这个操作的次数就越多顺序,您的结果将越精确。这就像创建新的抽象层来更清晰地描述对象过滤器,从原始过滤器到看起来像边、轮、正方形、立方体等的过滤器……事实6:矩阵卷积只是乘法和加法运算一张图值一千字:下图是用卷积滤波器(3×3)过滤的源图像(8×8)的简化视图。手电筒的投影(这里是SobelGx滤波器)提供了一个值。应用于输入矩阵的卷积滤波器(SobelGx)示例(来源:https://datascience.stackexchange.com/questions/23183/why-convolutions-always-use-odd-numbers-as-filter-size/23186)这就是这种方法的神奇之处,简单的矩阵运算是高度并行化的,非常适合通用图形处理单元的用例。事实7:需要简化和总结检测到的内容吗?简单地使用max()我们需要总结过滤器检测到的内容以学习概括。为此,我们将对先前过滤操作的输出进行采样。这种操作称为池化或下采样,但实际上是为了减小矩阵的大小。您可以使用任何缩减操作,例如:最大化、最小化、平均、计数、中值、求和等。最大池化层示例(来源:StanfordCS231n)事实8:展平输出以获得最终结果不要忘记我们正在研究的神经网络的主要目的是:构建图像识别系统,也称为图像分类。如果神经网络的目的是检测手写数字,那么输入图像最终将被映射到10个类:[0,1,2,3,4,5,6,7,8,9]。为了在通过所有这些过滤器和下采样层后将此输入映射到类,我们将只有10个神经元(每个类一个),每个神经元将连接到最后一个子采样层。以下是图像识别技术的早期采用者之一YannLeCun设计的原始LeNet-5卷积神经网络的概述。原论文中的LeNet-5架构(来源:http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf)Fact9:深度学习只是基于反馈循环的不断改进积累,但是也来自于网络本身的学习和适应能力。通过实施称为反向传播的反馈循环,网络将使用权重来减轻和抑制不同层中的一些“神经元”。让我们看看网络的输出,如果猜测(输出0,1,2,3,4,5,6,7,8或9)是错误的,我们要看看哪个/一些过滤器“错误”,之后找到它,我们给这个/一些过滤器一个小的权重,这样他们下次就不会犯同样的错误。看!系统正在学习并不断改进自己。事实10:这一切都表明深度学习是一个容易的并行处理以提取数千张图像、运行数十个过滤器、应用下采样、展平输出...所有这些步骤都可以并行完成,这使得系统易于并行化。这只是GPGPU的完美用例(通用目的图形处理单元),是大规模并行计算的理想选择。事实11:需要更高的精度?然后网络更深一点当然这有点过于简单化了,但是如果我们看一下主要的“图像识别竞赛”,ImageNet挑战,我们可以看到错误率随着神经网络深度的增加而降低。一般认为ed,除其他因素外,增加网络深度将导致更好的泛化和准确性。Imagenet挑战赛获胜者错误率VS网络层数(来源:https://medium.com/@sidereal/cnns-architectures-lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5)介绍应用于图像识别的深度学习概念。值得注意的是,几乎所有用于图像识别的新架构(医疗、卫星、自动驾驶……)都使用相同的原理,只是层数不同、过滤器类型不同、初始化点不同、矩阵大小不同、技巧不同(比如图像增强、dropout、权重压缩……)。这些概念都是一样的:用于手写数字识别过程的深度学习模型的训练和推理归结为许多并行完成的基本矩阵运算,这正是我们现有的图形处理单元(GPU)的用途。
