0


【人工智能与机器学习】基于深度学习CNN的猫狗图像识别

第1章卷积神经网络

1.1 卷积

卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。顾名思义,就是将卷积与前馈神经网络结合,所衍生出来的一种深度学习算法[1]。

卷积可简单定义为:设f(x)、g(x)是R上的两个可积函数,作积分:\int_{\propto }^{\propto }f(\tau )g(x-\tau )d\tau 称其为函数f(x)与g(x)的卷积,记为f(x)*g(x)=h(x)。卷积与傅里叶变换有着密切的关系:两函数的傅里叶变换的乘积等于它们卷积后的傅里叶变换(能简化傅里叶分析)。

1.2 前馈神经网络

前馈神经网络是一种最简单的神经网络,各种神经元分层排列,每个神经元只与前一层的神经元相连接。接收前一层的输出,并输出给下一层,各层间没有反馈。其中每一层包含若干个神经元,各神经元可以接收前一层神经元的信号,并产生输出到下一层。第0层叫输入层,最后一层叫输出层,其他中间层叫做隐含层,或隐藏层、隐层。隐层可以是一层,也可以是多层。一个典型的多层前馈神经网络如下图所示:

图1.1 多层前馈神经网络

1.3 卷积神经网络

卷积神经网络是在前馈神经网络的隐藏层做的改变,它的隐藏层包括卷积层、池化层、全连接层三部分[2]。

1.3.1 输入层

卷积神经网络的输入层可以处理多维数据。一维卷积神经网络可以处理一维或二维数组,二维卷积神经网络可以处理二维或三维数组,三维卷积神经网络可以处理四维数组。由于卷积神经网络在计算机视觉领域应用较广,因此许多研究在介绍其结构时预先假设了三维输入数据,即平面上的二维像素点和 RGB 通道。

1.3.2 卷积层

卷积层是卷积神经网络最重要的一个层次,也是“卷积神经网络”的名字来源。卷积神经网路中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。

卷积运算的目的是提取输入的不同特征,某些卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。在图像处理中卷积层就是在图片中扫描特征。卷积层包含有卷积核、卷积层参数和激励函数。卷积层使用卷积核进行特征提取和特征映射。卷积核类似于一个前馈神经网络的神经元,组成卷积核的每个元素都对应一个权重系数和一个偏差量。含义可类比视觉皮肤细胞的感受野。卷积层参数包括卷积核大小、步长和填充,三者共同决定了卷积层输出特征图的尺寸,是卷积神经网络的超参数。激励函数协助表达复杂的特征,类似于其他深度学习算法。3×3核的卷积核(卷积核一般采用3×3或2×2),卷积过程如下图:

图1.2 3×3卷积核

1.3.3 池化层

在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制。池化方式一般有两种,其中包含最大池化与均值池化,二者最大的区别在于卷积核的不同。最大池化只是输出在区域中观察到的最大输入值,而均值池化只是输出在区域中观察到的平均输入值。最大池化层在图像处理中就是在缩放图片,减少参数。

池化层在图像处理中的具体作用一是特征不变性,也就是我们在图像处理中经常提到的特征的尺度不变性,池化操作就是图像的resize,平时一张狗的图像被缩小了一倍我们还能认出这是一张狗的照片,这说明这张图像中仍保留着狗最重要的特征,我们一看就能判断图像中画的是一只狗,图像压缩时去掉的信息只是一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,是最能表达图像的特征。二是特征降维,我们知道一幅图像含有的信息是很大的,特征也很多,但是有些信息对于我们做图像任务时没有太多用途或者有重复,我们可以把这类冗余信息去除,把最重要的特征抽取出来,这也是池化操作的一大作用。三是在一定程度上防止过拟合,更方便优化。

1.3.4 全连接层

卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层(每个神经元与上一层的所有神经元相连)。全连接层位于卷积神经网络隐含层的最后部分,并只向其它全连接层传递信号。特征图在全连接层中会失去空间拓扑结构,被展开为向量并通过激励函数。全连接层的作用则是对提取的特征进行非线性组合以得到输出,即全连接层本身不被期望具有特征提取能力,而是试图利用现有的高阶特征完成学习目标。

图1.3 全连接层

1.3.5 输出层

卷积神经网络中输出层的上游通常是全连接层,因此其结构和工作原理与传统前馈神经网络中的输出层相同。

对于


本文转载自: https://blog.csdn.net/weixin_51323315/article/details/136120392
版权归原作者 柯基是猪 所有, 如有侵权,请联系我们删除。

“【人工智能与机器学习】基于深度学习CNN的猫狗图像识别”的评论:

还没有评论