深入卷积神经网络背后的数学原理 | 技术头条 - 好文

参加「CTA 核心技术及应用峰会」，请扫码报名 ↑↑↑

作者 | Piotr Skalski

译者 | Monanfei

编辑 | 十月Rachel、Jane

出品 | AI科技大本营（id：rgznai100）

【导读】在计算机神经视觉技术的发展过程中，卷积神经网络成为了其中的重要组成部分，本文对卷积神经网络的数学原理进行了介绍。文章包括四个主要内容：卷积、卷积层、池化层以及卷积神经网络中的反向传播原理。在卷积部分的介绍中，作者介绍了卷积的定义、有效卷积和相同卷积、跨步卷积、3D卷积。在卷积层部分，作者阐述了连接切割和参数共享对降低网络参数学习量的作用。在池化层部分，作者介绍了池化的含义以及掩膜的使用。

自动驾驶、智能医疗、智能零售，这些曾被认为不可能实现的事情，在计算机视觉技术的帮助下，终于在最近成为了现实。今天，自动驾驶和自动杂货店的梦想不再像以前那样遥不可及。事实上，每天我们都在使用计算机视觉技术帮助我们用人脸解锁手机，或者对即将发布到社交媒体上的照片进行自动修饰。在计算机视觉技术应用这一巨大成功的背后，卷积神经网络（CNN）可能是其中最重要的组成部分。在本文中，我们将逐步理解，神经网络是如何与CNN特有的思想协作的。本文章包含了相当复杂的数学方程式，但如果您对线性代数和微积分不熟悉，请不要气馁。我的目标不是让您记住那些公式，而是让您从直觉上去理解这些公式背后隐藏的意义。

前言

在之前的系列中，我们学习了密集连接的神经网络（densely connected neural
networks）。这些网络的神经元被分成组，形成连续的层，相邻的两个层之间的神经元相互连接。下图展示了一个密集连接的神经网络的示例。

Figure 1. Densely connected neural network architecture

当我们解决分类问题时，如果我们的特征是一组有限的并有明确定义的特征，这种方法是很有效的——例如，根据足球运动员在比赛期间所记录的统计数据，预测该运动员的位置。但是，当使用照片来进行预测时，情况会变得更加复杂。我们当然可以将每个像素的亮度视为一个单独的特征，并将其作为输入传递给我们的密集网络（dense
network）。不幸的是，为了使神经网络能够处理典型的智能手机照片，该网络必须包含数千万甚至数亿个神经元。我们也可以通过缩小照片的尺寸来进行处理手机照片，但是这样做会使我们丢失很多有价值的信息。可以发现，这种传统策略的性能很差，因此我们需要一种新的、更加聪明的方法来尽可能多地使用数据，并同时减少必要的计算和参数的数量。CNN闪亮登场的时候到了。

数字图像的数据结构

首先花一点时间来解释一下数字图像的存储方式。数字图像实际上是巨大的数字矩阵。矩阵中的每个数字对应于其像素的亮度。在RGB模型中，彩色图像由三个矩阵组成，分别对应三个颜色通道——红，绿，蓝。而在黑白图像中，我们只需要一个矩阵。矩阵中的每个数字的取值区间都是0到255。该范围是存储图像信息的效率（256个值刚好适合1个字节）与人眼的灵敏度（我们区分同种颜色的灰度级别的数量极限）之间的折衷。

Figure 2. Data structure behind digital images

卷积

核卷积（kernel convolution）不仅仅用于CNN，它还是许多其他计算机视觉算法的关键要素。核卷积就是将一个小数字矩阵（滤波器，也称作
kernel 或 filter）在图像上进行滑动，并根据 kernel
的值，对图像矩阵的值进行转换的过程。对图像经过卷积操作后得到的输出称为特征映射（feature map）。特征映射的值的计算公式如下，其中 f
代表输入图像，h 代表滤波器。结果矩阵的行数和列数分别用 m 和 n 表示。

Figure 3. Kernel convolution example

将 kernel 放在选定的像素上后，我们从 kernel
中依次取出每个值，并将它们成对地与图像中的相应值相乘。最后，我们将每个核运算后的结果元素相加，并将求和结果放在输出特征图中的正确位置上。上图从微观角度详细地展示了这一运算的过程，但在完整图像上实施该运算的结果可能更加有趣。图4展示了使用几个不同
kernel 的卷积结果。

Figure 4. Finding edges with kernel convolution

有效卷积&相同卷积（Valid and Same Convolution）

正如我们在图3中看到的，当我们使用 3x3 的 kernel 对 6x6 图像执行卷积时，我们得到 4x4
的特征映射。这是因为在这个图像中，只有16个位置可以将 kerenl
完整地放在这张图像中。由于每次执行卷积时我们的图像都会缩小，因此在我们的图像完全消失之前，我们只能进行有限次数的卷积。另外，如果对kernel
在图像中移动的过程进行观察，我们就会发现图像外围像素的影响远小于图像中心像素的影响。这样会导致我们失去图像中包含的一些信息。下图展示了像素位置的改变对特征图的影响。

Figure 5. Impact of pixel position

为了解决这两个问题，我们可以使用额外的边框来填充图像（padding）。例如，如果使用 1像素进行填充，我们将图像的大小增加到 8x8，因此使用 3x3 的
kernel 的卷积，其输出尺寸将为 6x6 。在实践中，我们通常用零值来填充额外的边界。根据是否使用填充，我们将处理两种类型的卷积——Valid 和
Same。Valid——使用原始图像，Same——使用原始图像并使用它周围的边框，以便使输入和输出的图像大小相同。在第二种情况下，填充宽度应满足以下等式，其中
p 是填充尺寸，f 是kernel 尺寸（通常是奇数）。

跨步卷积（Strided Convolution）

Figure 6. Example of strided convolution

在前面的例子中，我们总是每次将 kernel
移动一个像素，即步长为1。步长也可以视为卷积层的超参数之一。图6展示了使用更大步长时的卷积运算。在设计CNN架构时，如果希望感知域重叠较少，或者希望让特征图的空间维度更小，我们可以增加步长。输出矩阵的尺寸（考虑填充和步长时）可以使用以下公式计算。

过渡到第三个维度

体积卷积（Convolution over volume）是一个非常重要的概念，这不仅使我们能够处理彩色图像，而且更为重要的是，我们能够在单层网络中使用多个
kernel 。第一个规则是 kernel
和图像必须具有相同数量的通道。一般而言，图像的处理过程和图3的示例非常相似，但是这次我们是将三维空间中的值对相乘。如果想在同一个图像上使用多个
kernel，首先我们要分别对每个kernel执行卷积，然后将结果从顶层向下进行叠加，最后将它们组合成一个整体。输出张量的尺寸（可以称为3D矩阵）满足以下等式，其中：n -
图像大小，f - 滤波器大小，nc - 图像中的通道数，p - 填充大小，s - 步幅大小，nf - kernel 的数量。

Figure 7. Convolution over volume

卷积层

接下来我们将用前面学到的知识来构建CNN的一个层。我们将要用到的方法几乎与构建密集神经网络时用到的相同，唯一有区别的地方是，我们不再使用简单的矩阵乘法，而是使用卷积。前向传播包括两个步骤。第一步是计算中间值
Z：首先将前一层的输入数据与张量 W（包含滤波器）进行卷积，然后将运算后的结果加上偏差 b 。第二步是将中间值 Z
输入到非线性激活函数中（使用g表示该激活函数）。下面展示了矩阵形式的数学公式。如果您对公式中的任何部分不太清楚，我强烈推荐您去阅读一下我之前的文章
，文中详细讨论了密集连接的神经网络的具体内容。下文的插图很好地展示了公式中各张量的维数，以助于理解。

Figure 8. Tensors dimensions

连接切割和参数共享（Connections Cutting and Parameters Sharing）

在本文的开头曾提到，由于需要学习大量的参数，密集连接的神经网络在处理图像方面的能力很差，而卷积却为该问题提供了一种解决方案，下面我们一起来看看卷积是如何优化图像处理的计算的。在下图中，我们用一种略微不同的方式对2D卷积进行了可视化——用数字1-9
标记的神经元构成输入层，用于接收输入图像的像素亮度，单元 A-D 表示经过卷积计算后得到的特征映射。最后，I-IV 表示来自 kernel
的后续值，这些值是需要网络进行学习的。

Figure 9. Connections cutting and parameters sharing

现在，让我们关注卷积层的两个非常重要的属性。第一，从图中可以看到，并非两个相邻层中的所有神经元都相互连接。例如，神经元 1 仅影响 A
的值。第二，我们可以发现一些神经元使用了相同的权重。这两个属性意味着在CNN中我们需要学习的参数要少得多。值得一提的是，kernel
中的任一单值都会影响输出特征映射的每一个元素——这在反向传播的过程中是至关重要的。

卷积层的反向传播（Convolutional Layer Backpropagation）

任何曾经试图从头开始编写神经网络的人都知道，前向传播还不到最终成功的一半。当你开始向回推算时，真正的乐趣才刚刚开始。如今，我们不需要为反向传播而烦恼——因为深度学习框架已经为我们做好了，但是我觉得有必要弄明白它背后发生的事情。就像在密集连接的神经网络中一样，我们的目标是计算导数，然后在梯度下降的过程中，用这些导数去更新我们的参数值。

在下面的计算中，我们将用到链式法则——这在我之前的文章中提到过。我们想要评估参数的变化对结果特征映射的影响，以及随之对最终结果的影响。在开始详细讨论之前，我们需要将数学符号统一
——为了表示方便，我不会使用偏导数的完整符号，而是用下面提到的缩符号。但是请记住，当我使用这种表示法时，这将始终代表着成本函数的偏导。

Figure 10. Input and output data for a single convolution layer
in forward and backward propagation

我们的任务是计算 dW [1] 和 db [l] （它们是与当前层参数相关的导数），以及 dA[l-1]（它将被传递给前一层）。如图10所示，dA[l]
作为输入，张量 dW 和 W，db 和 b 以及 dA 和 A 的维度分别相同。第一步是求激活函数关于输入张量的导数，将其结果记为 dZ [1]
。根据链式法则，该运算的结果将在后面用到。

现在，我们需要处理卷积自身的反向传播。为了实现这个目标，我们将利用一个称为全卷积的矩阵运算，该运算的可视化解释如下图所示。请注意，在此过程中我们要使用
kernel，而我们之前用到的 kernel 是该 kernel 旋转了180度所得到的。该操作可以用以下公式表示，其中 kernel 由 W
表示，dZ[m,n] 是一个标量，该标量属于从前一层所获得的偏导数。

Figure 11. Full convolution

池化层（Pooling Layers）

除了卷积层之外，CNNs
经常使用一个称为池化层的网络层，它们主要用于减小张量的大小并加快计算速度。这个层的结构很简单，我们只需要将图像划分成不同的区域，然后对每个部分执行一些操作即可。例如，对于最大池化层（Max
Pool Layer），我们从每个区域中选择一个最大值，并将其放在输出中的相应位置即可。与卷积层的情况一样，我们有两个超参数——kernel
的尺寸和步长。最后值得一提是，如果要为多通道图像执行池化操作，则每个通道都应该分别执行池化操作。

Figure 12. Max pooling example

池化层的反向传播（Pooling Layers Backpropagation）

在本文中，我们仅讨论最大池化的反向传播（max pooling
backpropagation），但是通过将该方法稍作调整，便可运用到其他所有类型的池化层。由于在池化层这种类型的层中，我们不用更新任何参数，我们的任务只是适度地分配梯度值。前文讲到，在最大池化的前向传播中，我们从每个区域中选择最大值并将它们传输到下一层。因此很明显，在反向传播期间，梯度不会影响未在前向传播中使用的矩阵元素。在实际操作中，该过程是通过创建一个掩膜（mask）来实现的，该掩膜会记住在前向传播中所使用的元素的位置，随后我们就可以用该掩膜来传递梯度。

Figure 13. Max pooling backward pass

原文地址：

https://towardsdatascience.com/gentle-dive-into-math-behind-convolutional-neural-networks-79a07dd44cf9

（本文为AI科技大本营编译文章，转载请微信联系1092722531）

◆

精彩推荐

◆

5月25-27日，由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心
隆重召开。首届CTA核心技术及应用峰会将围绕人工智能，邀请技术领航者，与开发者共同探讨机器学习和知识图谱的前沿研究及应用。

同时，我们推出会议双日开发者盲定票，仅售299元（原票价1099元），限量30张。请扫描下方二维码，或添加小助手微信1731967109，备注【CTA】，了解
大会详情以及票务问题。

推荐阅读：

*
恶犬秒变萌汪：
<https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247504529&idx=1&sn=42e35ff49b767ded56ae9573534824a4&scene=21#wechat_redirect>
技术头条 <https://blog.csdn.net/csdnnews/article/details/86673015>

*
“你行你上”：有本事跟OpenAI Five打一把DOTA？
<http://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247504491&idx=1&sn=70d43155ca7ef47d05e0660fe3fd8629&chksm=e99ee192dee96884ed24a3aa8a72e9c8cbb722e3d00f60e9462ff65da8a917edef292374ac95&scene=21#wechat_redirect>

*
以女大学生相亲为例，给你讲明白数据挖掘算法
<https://mp.weixin.qq.com/s?__biz=MzU5MjEwMTE2OQ==&mid=2247485643&idx=2&sn=c5a0c249df8d6b5ebb48203f634ebaaf&scene=21#wechat_redirect>

*
Python分析《权力的游戏》最终季...... | 附源码
<https://mp.weixin.qq.com/s?__biz=MzU5MjEwMTE2OQ==&mid=2247485634&idx=1&sn=5a2d6f229dcd9fac75ed8861d1691f68&scene=21#wechat_redirect>

*
谷歌大神Jeff Dean点赞网红博士论文：
<https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247504475&idx=3&sn=bea20985bf1eddbadd1b7aa3b6e3bf44&scene=21#wechat_redirect>
改进分布式共识机制 | 技术头条
<https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247504475&idx=3&sn=bea20985bf1eddbadd1b7aa3b6e3bf44&scene=21#wechat_redirect>

*
滴滴全链路压测解决之道 | 技术头条
<https://blog.csdn.net/FL63Zv9Zou86950w/article/details/89391963>

*
手机导航已死！
<https://mp.weixin.qq.com/s?__biz=MjM5MjAwODM4MA==&mid=2650718457&idx=1&sn=20090b10dc26e465533dcbb3fe007867&scene=21#wechat_redirect>

*
如何嫁给年入百万的阿里人？
<https://mp.weixin.qq.com/s?__biz=MzA5MzY4NTQwMA==&mid=2651010339&idx=1&sn=87cacf10e186992afafd21db84697969&scene=21#wechat_redirect>

*
《捕鱼达人》幕后的开发引擎玩起区块链, 区块链游戏的春天已近？
<https://mp.weixin.qq.com/s?__biz=MzU2MTE1NDk2Mg==&mid=2247494488&idx=1&sn=ad4beb76cc51f398be5273cc99f780a6&scene=21#wechat_redirect>
| 人物志
<https://mp.weixin.qq.com/s?__biz=MzU2MTE1NDk2Mg==&mid=2247494488&idx=1&sn=ad4beb76cc51f398be5273cc99f780a6&scene=21#wechat_redirect>

*
程序员如何向女友解释：
<https://mp.weixin.qq.com/s?__biz=MzA5MjcxNjc2Ng==&mid=2650559683&idx=5&sn=964569bfe81393c9bee2260eb6e5b8a1&scene=21#wechat_redirect>
为啥软件都要装C盘？
<https://mp.weixin.qq.com/s?__biz=MzA5MjcxNjc2Ng==&mid=2650559683&idx=5&sn=964569bfe81393c9bee2260eb6e5b8a1&scene=21#wechat_redirect>

❤点击“阅读原文”，直接参与大会报名。

热门工具换一换