本文是一篇计算机软件论文,本文采用深度学习的方法进行服装图像分类和去噪研究。针对服装图像分类,本文设计了一种新型的池化方法,名为自适应加权池化,并将其用于 CNN 进行服装图像分类。针对服装图像去噪,本文结合 ASM 能量与结构图像先验理论,先证明了方法的可行性,然后搭建了 UNet 网络结构用于服装图像去噪。
第一章 绪论
1.1 课题研究背景及意义
当今时代,经济快速发展,人们的生活水平得到了极大的提高,以经济为基础的时尚产业也因此受到了越来越多的关注。服装与时尚息息相关,随着互联网的普及,如今人们更倾向于在网上购买服装。中国报告网数据表明,2020 年我国服装网购消费人数为 3.55亿,行业零售额为 3.81 万亿元,其中网购零售额高达 2.76 万亿元,占比 72.4%。随着网络普及率的逐步提高以及互联网服装购物平台的不断完善,未来我国的服装网购消费人数将逐步增加,预计到 2025 年该数据会达到 6.18 亿左右。基于网购服装带来的巨大经济效益,如何高效且准确地对服装图像进行分类[1]和去噪[2]成为了计算机视觉领域的热点。
随着深度学习的发展,图像识别技术获得了快速进步,卷积神经网络(ConvolutionalNeural Network,CNN)在图像分类方面相较于传统算法有着更高的准确率,在各个领域已被广泛应用。相较于一般图像,服装图像之间具有主体轮廓相似、纹理结构差异不明显等特点,加之其类别的多样性使得要想准确地识别服装图像具有更大难度,故需要寻找性能更优的深度学习网络结构来进行服装图像分类。
池化层作为卷积神经网络中的基本层,用于减小网络中特征图的尺寸,将特征图邻域内的多个特征值通过某种策略合并为单个特征值,以保留与任务相关的信息,同时删除不相关的细节,以获得更大的感受野和更少的内存消耗。然而,对于不同类型的任务,若池化策略使用不当,可能会丢失有用的细节,从而影响学习过程,最终导致模型不理想。现有的池化方法(如最大池化、平均池化、跨步卷积[3])使用固定的池化策略,无法根据任务类型的不同更改策略类型。服装图像的特征具有相似性、多样性等特点,若使用卷积神经网络对其进行分类,采用固定的池化策略不能起到很好的分类效果。为了解决现有池化方法存在的问题,本文提出一种池化策略可变的自适应加权池化,让神经网络智能选择最佳策略,采用该池化方法的卷积神经网络,能更有效地解决服装图像的分类问题。
1.2 国内外研究现状
1.2.1 深度学习研究现状
深度学习(deep learning)一词最早由 Hinton 等人提出[6],用于区分“浅层学习”,相较于后者,深度学习是由更多个处理层组成的神经网络模型,通过更深的网络提供了更高的计算精度,但同时也增加了参数,增大了计算量。
从网络结构上来看,深度学习中最主要的监督学习模型结构有两类,卷积神经网络与循环神经网络(Recurrent Neural Network,RNN)。CNN 擅长处理二维图像数据,在计算机视觉(Computer Vision,CV)领域应用广泛。第一个卷积神经网络模型 LeNet5[7]于 1998年由 Lecun 提出,LeNet5 中引入了卷积和池化操作,并成功地应用于手写体数字识别,但由于当时计算量和数据不足,且识别准确率并不如当时最为火热的机器学习算法 SVM,因此并不被人们所看好。Alex 等于 2012 年提出了深层的 CNN 结构 AlexNet[8],该网络在当年的 ImageNet 竞赛中获得冠军,对图像分类的准确率大幅领先于传统图像分类方法,从此深度卷积神经网络开始盛行。牛津大学于 2014 年提出了 CNN 结构 VGGNet[9],在之前的基础上继续加深网络层数(VGG16 和 VGG19 分别有 16 层和 19 层),并提出多个小卷积核可以等效代替大卷积核,这一理论使得大小为 3×3 的卷积核被以后的 CNN 广泛应用。谷歌于 2014 年提出 GoogLeNet[10],该网络使用了 Inception 结构,对同一张特征图使用不同尺寸的卷积核进行卷积,并将所有卷积核提取得到的特征图叠加。当神经网络加深到一定程度时,网络的性能可能并不会随着层数的增加继续提升,反而会因为梯度消失或梯度爆炸的影响而降低,为了保证深层神经网络的良好性能,何凯明等在 2015 年底提出了深度残差网络 ResNet[3],通过跳跃连接的方式,使得训练任意深层的网络成为可能。
第二章 相关理论基础
2.1 引言
本章主要介绍本课题提出的分类算法与去噪算法基础。首先介绍了神经网络的前置基础——神经元模型,以及通过神经元模型组合得到的多层感知机,多层感知机中使用的全连接结构是现在许多深度神经网络的的基本结构。然后对深度学习运行过程中所使用的反向传播算法和优化算法进行了详细说明。随后介绍了在图像领域应用最为广泛的卷积神经网络,详细介绍了 CNN 的结构以及 CNN 不同网络层在训练过程中的作用。最后介绍了本文去噪算法中涉及到的图像灰度共生矩阵。
受神经元模型的影响,Rosenblatt 等[62]在 1957 年提出了感知机模型,感知机是一个二元线性分类器,无法解决非线性问题。2006 年,Hinton 等[6]提出了深度前馈网络(deepfeedforward network)的概念,深度前馈网络由若干层感知机模型连接而成,又被称为多层感知机(multilayer perceptron,MLP),多层感知机中每个神经元拥有的非线性激活函数使得模型在理论上可以拟合任何函数,由此可以有效地解决非线性问题。
在神经网络的各种结构中,多层感知机是被广泛使用的一个监督学习模型,它由多层神经元连接组成。从拓扑结构来看,多层感知机可以分为三层,分别是输入层、隐含层和输入层。输入层是模型的第一层,该层的神经元个数等于输入数据的维度。输出层是模型的最后一层,该层的神经元个数取决于输出结果的维度。输入层与输出层之间的所有层均为隐含层,隐含层的层数和各层隐含层所拥有的神经元个数可根据任务类型的不同自行设定。每个神经元都与相邻层的所有神经元连接,且没有层内连接与跨层连接,输入信号从输入层开始一层一层向输出层传递,直至获得最终输出,这样的结构特点被称之为“全连接”。
2.2 深度学习
2.2.1 神经元模型
深度学习由人工神经网络(artificial neural network,ANN)发展而来,是当前机器学习最热门的领域。最早关于人工神经网络的研究开始于 20 世纪 40 年代,由 McCulloch 和Pitts[60]提出 M-P 神经元模型,其模型示意图如图 2.1 所示。人工神经网络试图使用数学模型来模拟大脑活动,神经元模型是对人脑中神经细胞活动的高度数学抽象。1949 年,Hebb等[61]提出了细胞结集理论(cell assembly theory),该理论解释了脑中的神经元在学习过程中所发生的变化。
第三章 基于自适应加权池化的服装图像分类.................... 22
3.1 引言............................. 22
3.2 服装图像分类数据集..................... 22
第四章 基于结构图像先验与 ASM 能量的服装图像去噪..........................35
4.1 引言....................... 35
4.2 结构图像先验.................... 35
第五章 总结与展望........................... 45
5.1 本文工作总结.................. 45
5.2 研究展望............................ 46
第四章 基于结构图像先验与 ASM 能量的服装图像去噪
4.1 引言
服装图像在采集的过程中,受环境、设备、人为因素的影响不可避免地会引入噪声,导致图像质量降低,从而影响人眼的观感,对服装图像地进一步处理也会受到影响。图像去噪希望使用图像自身的信息来去除图像噪声,同时不影响图像本身的细节,以获取与原始图像更加接近的去噪图像。由于服装图像纹理的复杂性和多样性,对其进行去噪时需要更加注重细节的完整性,因此有必要对服装图像进行高质量的去噪处理。
本文结合图像灰度共生矩阵中的 ASM 能量,通过深度学习的方法对图像进行降噪。根据 Ulyanov 等[5]所提出的思想,图像的先验特征可以由网络结构表示(结构图像先验),而非网络中的参数(参数图像先验)。对于一个图像生成的卷积神经网络,以随机向量作为输入,完整图像作为目标输出,通过对网络进行训练,可生成目标输出图像。目标图像的 ASM 能量越低,生成所需要的迭代次数越多,对于同样的网络结构,要生成噪声图像比生成自然图像需要更多的迭代次数。根据这一特性,将噪声服装图像作为目标输出,在网络迭代至 ASM 能量极大值处停止训练,此时的网络输出即为去噪后的服装图像。
第五章 总结与展望
5.1 本文工作总结
本文采用深度学习的方法进行服装图像分类和去噪研究。针对服装图像分类,本文设计了一种新型的池化方法,名为自适应加权池化,并将其用于 CNN 进行服装图像分类。针对服装图像去噪,本文结合 ASM 能量与结构图像先验理论,先证明了方法的可行性,然后搭建了 UNet 网络结构用于服装图像去噪。本文的主要研究内容可以归结为以下几点:
1)分析现有池化方式的特征,并提出一种新的池化方法:基于特征提取对卷积神经网络中的各种池化方法进行分析,得出现有池化方法存在无法将各种类型的特征都准确提取的问题,以及理想池化方法应具有的特点,并依此提出了一