软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

图像分类的深度神经网络模型和算法

日期:2022年02月03日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:594
论文价格:150元/篇 论文编号:lw202201181442367621 论文字数:33255 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:软件工程硕士论文

本文是一篇软件工程硕士论文,本文针对图像分类中深度卷积神经网络所使用的传统交叉熵损失函数的不足进行了改进,以缓解对噪声样本的过度拟合,同时考虑到了不同特征对于提升模型性能的贡献程度,进而从两方面着手提高模型对于噪声样本的泛化能力。


第 1 章 绪论


1.1 研究背景与意义

随着近些年计算机硬件和大数据相关技术的发展,借助于计算机越发强大的运算能力,尤其是 GPU 计算性能的巨大提升,使得对深度学习的探索迅速成为了研究的热点。在上世纪中,人类对动物的视觉感官和大脑组织进行了深入的研究和探索,这也促使人们尝试通过创造人工系统使之能够模拟动物的视觉运作进而通过计算机强大的计算能力来解决计算机视觉问题[1]。自上世纪 70 年代后期,当计算机的性能能够处理类似图像这样的复杂且庞大的数据时,计算机视觉也越来越为人所关注并开始快速发展,更是在近些年因为深度神经网络的发展,迅速产生了一系列的以理解图像内容、学习图像特征为研究目标的计算机视觉任务。

计算机视觉中的经典问题是确定图像数据是否包含某些特定的对象,特征或活动。这一问题还不能由计算机自动解决,并且到目前为止,还没有那种方法被证实能够广泛的解决各种与图像相关的问题。现有的计算机视觉技术也只能够应对指定目标的识别和分类,而且这些有时候还需要在特定的环境中。其中,对图像分类算法的研究作为计算机视觉领域中解决其他问题的基础,如何提高图像分类算法的泛化能力,一直是该领域的热点问题。图像分类是从图像的语义信息中提取特征,并依据特征将不同类别图像区分开来,是计算机视觉中被广泛研究的基础问题[2]。并且图像分类既是目标检测和语义分割的基础领域,也是人脸识别[3]和无人驾驶[4]等更高级的计算机视觉任务研究的重要前提。经过这些年的研究,依靠计算机完成的图像分类能力在一些方面已经超过了人类,并且基于深度神经网络的图像分类研究仍在继续。

图像分类作为计算机视觉领域中的一个重要的研究难题,同时也是解决其他计算机视觉难题的基础。图像分类的方法在生活中有着众多使用,并且随着图像分类技术的发展,其应用范围也在扩大,对社会生活的方式的影响也越来越大。图像分类的研究目标是,设计一个图像分类模型并通过对输入的不同图像的学习使得分类模型能够准确判断出新输入图像的类别。为了实现这个目标,传统机器学习的图像分类方法将整个分类算法分为了几个阶段:图像信息的输入,对图像进行预处理,从图像中提取特征,对提取的特征进行选择以及构建分类器。具体的分类过程如图 1.1 所示。传统的图像分类方法中较为经典的的方法有支持向量机(SVM[5])、k-最近邻(kNN[6])和随机森林[7]等。但是传统的机器学习方法需要人工提取出特征信息在根据特征去做分类,在实际使用中有很大的局限性[8]。在处理很大的数据集时要耗费大量的时间,并且如果训练集中混有噪声,例如标签噪声[9],模型往往泛化能力较差,很难得出满意的分类结果。

...........................


1.2 国内外研究现状

近年来,基于深度神经网络的图像分类算法已经成为解决图像分类任务[16]的主要方法。图像分类的技术在各行各业中都有了很多的应用。但是在应用中人们也发现在训练数据中包含噪声数据时,其图像分类准确性就大打折扣,并且在现实应用中总是能获得大量干净的数据是十分困难的。因此,提升分类模型的泛化能力就十分重。提高网络模型的泛化能力,目前学术界主要从网络、损失两个方面考虑。

首先在网络层面上,Hinton 等人在 2012 年在 AlexNet[11]首次使用了 Dropout,并在 2014年正式提出了 Dropout[17]这一方法。Dropout 方法通过在网络中插入 Dropout 层,使得深度神经网络在训练过程中,以一定的概率将一部分网络中的神经元暂时关闭,促使神经元和一些没有被随机关闭的神经元共同起作用,降低了神经元之间的联系,提高了网络模型的泛化能力。之后为了增加更多的稀疏性,2017 年Molchanov等人提出了Variational Dropout[18]同时对全连接层和卷积层进行稀疏。另外,由 Google[19]在 2015 年提出了批处理标准化(Batch Normalization,BN),通过在网络中插入 BN 层,促使模型用小批量数据的均值和方差作为所有训练数据的均值与方差的估计,尽管每一个批次中的数据都是从所有训练数据中随机抽出来的,但不同批次的数据的均值和方差会有所不同,这就在网络学习的过程中随机添加了噪声。在一定程度上增加了网络模型的泛化能力。He 等人在 2016 年提出了ResNet 模型,设计了残差连接很好的解决了深度网络模型的退化问题,使深度卷积神经网络能够采用更深的设计,并且也更易于训练。在这之后,Jiang 等人在 2018 年提出 MentorNet模型,MentorNet 模型由两个子网络组成[20],导师网(MentorNet)和学生网(StudentNet)。导师网学习由数据驱动的课程用于监督学生网的训练,而导师网又依据学生网的反馈动态更新课程。该方法通过提出一种新的学习数据驱动课程的方法解决带有噪声数据的图像分类问题。另外对于网络的设计,大多数模型还是研究者根据经验人工设计网络结构。不过也有一些工作是通过机器自动设计网络结构,其中 Sun 等人在 2019 年提出了 EvoCNN 用于图像分类。EvoCNN 设计了一种可变长度基因编码策略,并利用遗传算法进化深度卷积神经网络的结构和网络权重初始值。该方法能够自动学习到一组满足当前适应度要求的最佳网络参数,并且有助于避免网络陷入局部极小。


第 2 章 相关技术综述


2.1 基于深度学习的图像分类

图像分类,顾名思义就是一个模式分类问题,它的目标是将不同的图像通过一些方法精准的划分到不同的类别,这个分类的误差越小越好。为实现更准确的分类,从图像中获得更丰富的语义信息并能够提取到相关特征就尤为重要。而传统方法对于底层特征信息的学习是十分困难的,也就很难对复杂图片进行识别。传统的图像分类方法需要对底层特征进行提取,然后对特征进行编码和特征汇聚,再通过分类器进行分类。可以看出,传统的图像分类算法过程繁杂,工作量大,并且底层特征信息的学习是十分困难的,很难通过具体的方法进行很好的提取。而基于深度学习的图像分类方法凭借复杂的网络和强大的特征表达能力使之很容易就能提取丰富的特征信息,进而取得较好的图像分类结果[25]。简而言之,基于深度学习的图像分类方法,不再需要人为的选取特征,而通过设计的深度神经网络让计算机自动学习到良好的特征。

深度学习的思想就是通过堆叠多个层网络构建深度神经网络来实现对输入数据的分级表达,进而通过不同的层来获取更多更复杂的特征表达,最终通过学习大量的数据提升分类的准确性。现阶段的图像分类方法大都是基于深度卷积神经网络的。并且随着深度神经网络的发展,从早先的 AlexNet 和 VGGNet 发展到如今的 ResNet[26]和 Inception V4[27]等更深更复杂且性能更强的卷积神经网络框架。在这其中,Alex 等人在 2012 年提出的卷积模型 AlexNet 在 ImageNet 数据集[28]上展现了超高的水平。这是首次将深度学习用于大规模的图像分类,是历史性的突破。由此,学术界和工业界对于深度学习在图像分类领域的探索不断深入,也确立了当前深度卷积神经网络在图像分类[29]领域的不可撼动的地位。

在处理图像分类任务中,在一段时期,人们发现随着网络不断变得更深,网络模型的分类准确性非但没有提高,反而下降了。为了解决这个网络退化问题,He 等人提出了 ResNet网络结构,其通过设计的残差网络模块可以将网络的深度设计的更深而提高分类准确性。在之后,为了进一步提升图像分类的性能,对深度神经网络的改进也越来越多。宽残差神经网络(Wide Residual Networks,WideResNet)[30]的提出,使得加深网络结构不再是提升分类性能的唯一方向。其在深度不变的情况下,增加网络的通道数使网络更宽,能够在与残差网络相同网络参数量的情况下获得更高的准确率和更快的速度。随着深度神经网络的发展,对于图像分类等任务的解决变得越来越简单准确,在现实生活中的应用也越来越广泛。


2.2 深度神经网络

深度神经网络最初就是主要由输入层、多个隐藏层和输出层组成的多层神经网络。多层神经网络通过增加输入与输出之间的隐藏层,并通过多个隐藏层之间的非线性变换实现对复杂数据的建模,从而学习数据的分布。

随着多层神经网络的发展,发现当隐藏层的数量增加时,优化函数越来越容易陷入局部最优解,性能还不如较浅层的网络。直到 Hinton[35]在 2006 年通过逐层预训练的方法缓解了局部最优解问题,将隐藏层增加到了 7 层,深度学习的思潮由此开始。深度神经网络是深度学习的基石,是构建深度学习框架的主要部分,深度神经网络通过将类似人类神经元的无数节点相互连接形成足够复杂的网络结构模型,然后通过网络能够挖掘更深层次的特征。

2.2.1 卷积神经网络

卷积神经网络(Convolutional Neural Network,CNN)[36]是一种加入了卷积运算的前馈神经网络,经常被用于处理视觉图像类问题,是深度神经网络中最为人所知的一种基础网络架构。卷积神经网络是受到人的视觉认知启发而构建的含有类似人类神经元节点的人工神经网络。卷积神经网络将输入的数据通过多个隐藏层并进行卷积运算和非线性变换,从而实现对输入数据特征的提取,之后通过对特征的融合获得层次更高的局部特征,最后通过获得的特征对图像进行分类。并且不同于其他前馈神经网络,卷积神经网络中的