本文是一篇计算机软件论文,本文设计了基于卷积神经网络的端对端的弱监督学习分类模型,实现对细粒度图像分类精度的提高。本文主要研究焦点在于如何解决细粒度图像中类间差距小、类内差距大以及人工标注成本高等造成的分类误差。
第一章 绪论
1.1 细粒度图像分类的研究意义及背景
互联网技术的进步在二十一世纪的人类社会中推动了信息革命的浪潮,每个人产生的信息量在虚拟环境中不间断地增长交互。视觉信息是人类在日常环境中能够获取的首要信息源,而在视觉信息中图像无疑是人类获取数字资源得最关键的形式之一。而在信息爆炸的时代,面对庞大的图像资源,必须倚仗于优秀的图像分类算法归纳管理。细粒度图像由于图像本身的内容差异较小,分类方法与研究重心与粗粒度图像分类相比各有侧重。对于粗粒度图像分类而言,数据内容涵盖的范围森罗万象,既包括动物、人物的前景的目标分类,又有对于建筑和风景的场景识别,所以体量庞大、类别繁多的图像数据集(例如 ImageNet[1]、COCO[2]等)成为领域内的主要研究对象。对于细粒度图像分类而言,研究内容主要为识别同一基础类别(例如鸟[3]、狗[4]、花[5]、车[6]、飞机[7]等)其下细化程度更高的子类。样本类别间的特征表现极高相似度,代表了对图像标注工作者更高的知识储备要求,也代表了更高昂的人工标注门槛,否则细微的判断差异会造成分类的失误。传统的图像分类方法提取的特征只在对纹理、边缘等方面表现丰富,但是对抽象语义的目标特征却无法涉及。细粒度图像分类方法的特征提取远不止在于对全局图像的纹理、轮廓的浅层识别,更在于对细节区域的深层挖掘。由此,本文考虑设计创新的深度学习方法,就基于卷积神经网络的细粒度图像分类方法开展一系列研究,在方法有效程度做出一定贡献。粗粒度图像分类和细粒度图像分类的差别如图 1-1 所示。
图 1-1 细粒度图像分类和细粒度图像分类
..............................
1.2 本课题研究背景和国内外研究现状
1.2.1 研究背景
细粒度图像分类(Fine-Grained Image Categorization,FGIC),又被称作子类别图像分类(Sub-Category Recognition),近年来在计算机视觉、模式识别等领域的重要性逐渐显现。细粒度图像分类作为图像分类的子领域,和一般计算机视觉任务类似,分类方法存在着很多普遍性问题[12],例如图像的光照不均,场景差异大,尺度及视角多变等。而作为类别划分细、特征易混淆的目标级分类任务,细粒度图像分类最独特的难题来自于其数据内容类间差距小、类内差距大,蕴藏了更加重大的研究与应用价值。
细粒度图像分类这个课题被提出和探索的发展历程也是模式识别领域中深度学习方法崛起的证明。传统的基于人工特征提取方法一般分为两阶段:特征提取阶段——使用 SIFT[12]或者 HOG[14]这些特征描述子提取和构成图像特征;特征编码阶段——利用VLAD[15]或者 Fisher Vector[16]等高斯混合模型对细粒度特征进行向量化的表达。但是在CUB-200-2011 的技术报告中,Wah 等采用传统机器学习方法的词包(Bag of words, BoW)模型完成分类,然而最终分类结果仅为 17.3 %。显然这个精度结果很难满足实际应用要求。主要是因为传统机器学习的特征描述子只能清晰感知纹理、边缘等的特征表达,但是对抽象语义的目标特征却无法提取,尤其在细粒度图像上不具备足够的区分度。
深度学习的快速发展推动卷积特征已成为一种兴起的特征表示方法,越来越多基于深度学习的算法应用到目标的分类或检测问题中,并从一系列实验上证明了卷积特征强大的语义特性和优良的迁移能力。自 2012 年 ImageNet 比赛开办起,基于卷积神经网络的深度学习模型牢牢占据每一年的领奖台。究其原因在于卷积神经网络具有权值共享、稀疏连接以及平移不变等特点,使其在图像处理中有着独特的优越性。随即,结构各异的卷积神经网络模型崭露头角,例如 ResNet 系列[17]、VGG 系列[18]、Inception 系列[19][20],这些网络为解决细粒度分类问题提供了广泛的思路。
............................
第二章 卷积神经网络及细粒度图像相关内容
2.1 卷积神经网络
卷积神经网络(Convolutional Neural Network,CNN)起源于对传统机器学习中的多层感知机的改进,多层感知机结构如图 2-1 所示。而卷积神经网络使用类似的层级网络对输入数据进行建模提取深层语义特征,其最大的创新之处在于采用局部连接和权值共享的方式改进了层级间的连接形式。局部连接指的是层与层之间的节点用稀疏相连代替全连接形式,保证特征提取能力不降低的同时压缩模型结构,使得卷积网络在存贮需求和统计效率方面具有优越性。权值共享指用将原本只用一次的权重矩阵“回收利用”,即使用固定大小、参数相同的卷积核在训练过程始终完成图像特定位置的学习,保证了卷积神经网络具有平移等变性。而且比起操作繁复的人工特征提取方法,图像输入卷积神经网络后以特征图或特征向量的形式输出,实现了端到端的自我学习模式,极大拓展了特征工程的领域。
图 2-1 多层感知机结构图
卷积神经网络图像领域应用日趋广泛,已经成为图像分割、行为识别、目标检测、自然语言处理等计算机视觉任务的首选方法,但总体网络运行的过程可以总结为在训练过程中,从大规模的样本中学习关联性或本质性特征,在测试过程中能够识别和预估性质类似的测试数据。所以卷积神经网络的主要构成部分基本类似,大都包含三种网络层结构:卷积层,池化层,全连接层。
............................
2.2 经典的卷积神经网络
2.2.1 VGG
VGG 网络在 2014 年由牛津大学和谷歌 DeepMind 公司共同提出,其名字来源于作者团队 Oxford Visual Geometry Group 的缩写。在卷积神经网络逐渐兴起时,VGG 网络放弃当时同类型网络使用大尺寸的卷积核,使用 3×3 的卷积核代替大尺寸的卷积核组成主体的网络结构,这样的设计使加强了图像局部区域间的特征相关性,整体结构也不失简洁。同时在相关实验中证明,一定程度内,小型卷积核的累积比单一的大型卷积核更能改进卷积网络性能,主要是因为更多的非线性卷积操作可以捕捉网络特征的细节变化。
在一系列实验测试中,16 至 19 层网络层数的设计可以达到网络模型精度的峰值,这就是普遍使用的 VGG16 和 VGG19 网络。VGG 网络结构如图 2-5 所示,网络中用复数个 3×3 卷积代替 5×5、7×7 大小的大尺寸卷积,在没有影响感受野的同时优化了特征提取的能力。VGG 网络结构如图 2-5 所示。
图 2-5 VGG 网络结构示意图
................................
第三章 基于自注意尺度变换网络的细粒度图像分类方法 ........................ 19
3.1 自注意尺度变换网络 ............................. 19
3.2 自注意力融合模块 ....................... 20
3.3 多尺度变换分支 .............................. 22
第四章 基于多分支增强网络的细粒度图像分类方法 ............................ 29
4.1 多分支增强卷积网络 ................................. 29
4.2 局部响应特征融合模块 ................................ 29
4.3 自约束局部数据增强 ............................... 30
第五章 基于多级注意力融合卷积网络的细粒度图像分类方法 .................... 41
5.1 多级注意力融合卷积网络结构 ......................... 41
5.2 基于 Inception-V3 的注意力融合模块 ....................... 41
5.3 双线性注意力融合模块 ................................. 43
第五章 基于多级注意力融合卷积网络的细粒度图像分类方法
5.1 多级注意力融合卷积网络结构
细粒度图像存在不同类别图像特征过于相似、同类目标姿态各异、背景干扰等问题,往往导致类内差距过大、类间差距过小。此外,细粒度图像训练数据集需要专业人士人工标注图像所属类别(标签),成本较高,这就导致每种类别的样本数量受限,容易导致过拟合的现象。因此基础的模型和单纯的卷积特征很难专注于目标局部的细微差别,只能在细粒度分类任务上达到一般的效果。为了专注于目标局部特征,许多方法[54][55]都致力于寻找可能存在的目标局部位置。主流模型通过注意力机制[56][57]虽然能较好地区分目标和背景,但可能会导致网络过于关注目标某一部位区域而忽略其他细节,在提取目标局部特征方面容易陷入瓶颈。针对这一问题,本章提出如下内容来提升细粒度图像分类效果。
多级注意力融合卷积网络框架如图 5-1 所示,由 Inception-V3 注意力融合模块、自适应双线性特征融合模块、注意力导向的互补性数据增强分支三个模块组成。作为网络主干的 Inception-V3 主要用于提取图像的基础特征;双线性特征融合模块将