本文是一篇软件工程硕士论文,本文针对行人重识别问题展开了研究,利用深度学习算法实现准确、快速识别行人。本文基于有监督和无监督两大行人重识别问题展开了研究。在有监督行人重识别中,本文探究了提取以及融合行人图像的全局特征和局部特征的网络结构设计。在无监督行人重识别中,本文着重探究从整张图像和图片的局部细节中学习区分性特征的深度学习方法。
第一章 绪论
1.1 行人重识别的研究背景与意义
近年来,人们对于公共安全问题的关注度随着社会的不断发展而日益增加。但是在公共场所中,密集的人群很容易导致公共安全事件的发生,如人口拐卖事件、人口失踪事件、暴力事件等等。公共场所的安全问题保障得益于通信网络的发展。现今,大量的监控摄像头被安装和应用在城市的各个公共场所。同时,这些摄像头拍摄到的视频和图像数据也成为了侦破犯罪案件、约束人们行为、保障公共安全管理的重要手段。传统的行人识别方法是由公安部门工作人员利用目标行人照片来从监控图像中识别行人和跟踪行人,或者是由相关执法部门利用监控视频对于犯罪嫌疑人的行为进行调查和取证。如此,对目标人物的识别和定位是这些工作的必要前提条件,但是由于监控视频的数量巨大,监控环境的区域规模复杂且多变,所以在大规模的监控视频中利用人工方式进行目标行人的跟踪和识别是一个非常耗费人力物力和时间的行为。在实际操作中,也存在着如下问题,这为定位目标人物造成了一定的难度:
(1)由于拍摄的角度不同、监控视频的图像分辨率较低,导致在整个监控过程中去清晰的看到行人的脸部特征并利用样貌辨别行人是非常困难的一件事,所以相关工作人员普遍借助身形、衣着、装饰等较为粗糙的外貌特征来识别目标人物。这为定位目标行人制造了难度。
(2)将摄像头按照特定的顺序和角度来将整个城市区域进行全方位监控是十分困难的,这使得整个监控视频网络中会存在监控的盲区。在某一个摄像头下查找到目标行人后,再在其余的监控视频中再次确定目标行人的这一过程会耗费大量的时间及人力。
因此,如何有效利用监控设备中的行人信息,找到代替传统人工方法的新技术来实现自动识别目标行人已经是急需解决的问题。面对这一问题需求,越来越多的研究学者们纷纷投入这一研究问题中,行人重识别(Person Re-identification,re-ID)技术应运而生。
............................
1.2 研究现状
1.2.1 有监督行人重识别的研究现状
近些年来,随着深度学习方法的不断普及,许多国内外的学者开始关注深度学习,并利用深度学习网络提取行人特征来处理行人重识别问题。我国学者 Li 等人[1]首次提出将孪生神经网络架构与行人图像的特征学习相结合来识别行人的方法,这一方法表现出了很好的性能。我国学者 Sun 等人[2]提出了一个基线模型,该模型将识别行人身份标签的方法与ResNet-50 网络结合起来,并用于目前的行人重识别系统。这一方法大大改善了基于深度学习的行人重识别方法的准确率。Varior 等人[3]提出利用孪生卷积神经网络计算行人图像对的中级特征来表示局部特征之间的相互关系。我国学者 Xiao 等人[4]针对跨数据集检索行人这一问题,提出了域引导丢弃法(Domain Guided Dropout, DGD),大大提高了模型的泛化能力。
提取局部特征方面。Li 等人[5]提出利用深度学习模型来学习和感知行人的躯干部位以及其他潜在身体部位的深层语义,以此来定位行人图像的局部特征。Zha 等人[6]利用深度学习的方法,在对行人图像进行分割后,将不同行人图像的相同分割部位进行对齐,通过图像块匹配的方式来实现行人身份匹配。Liu 等人[7]利用深度学习网络模型来加强对行人躯干重点部位的识别,以便提取行人图像重点身体部位的局部特征。Bai 等人[8]利用 LSTM网络将行人图像垂直分割成多个部分并提取局部特征,然后将提取的特征块组合在一起来进行特征匹配。另外,Hao[9]等人和 Li 等人[10]也提出可以通过加强对行人图像的身体部位识别的方法来提高模型识别行人的精度。本文第三章通过将特征图进行水平分割来提取局部特征,同时,也分别从不同的网络深度提取局部特征来提升深度学习模型的性能。
提取全局特征方面。所谓的全局特征,可以参考 Chen 等人[11]文章中提及的核特征图,核特征图就是用于表示全局特征的特征图。Liao 等人[12]提出了本地最大次数法(Local Maximal Occurrence)来提取起到积极作用的全局特征。在第三章中,我们利用深度学习网络提取全局特征和局部特征,并用于识别行人。softmax 损失函数在处理各种多分类问题上被广泛应用,其既可以单独作为损失函数使用[13],也可以与其他损失函数结合使用[14-16]。在行人重识别中,softmax 损失函数多被作为分类损失函数使用。本文在第三章中也使用softmax 损失函数解决多分类行人重识别问题。
................................
第二章 深度学习及行人重识别基础
2.1 引言
近年来,深度学习网络模型被广泛应用于计算机视觉领域并取得了令人瞩目的成果。同时深度学习方法的性能优越性也吸引学者们将其用于行人重识别这一问题研究中。最近深度学习在提取行人特征和提高距离学习算法的鲁棒性等方面取得了很高的成就。其中,在深度学习的算法中,卷积神经网络(Convolutional Neural Networks, CNN)具有强大的表征学习能力,能够进行有监督学习和无监督学习,被广泛应用于各类图像分析处理领域并且取得了很多突破性的进展。卷积神经网络也作为基础网络被广泛应用于行人重识别方法中。本章将介绍卷积神经网络的基本网络层构造以及相关的理论基础,同时介绍行人重识别的距离度量函数、评价指标以及行人重识别数据集。
卷积神经网络是以卷积层为主要网络结构的深度神经网络模型,其借鉴了人类大脑的视觉神经系统的层级结构,主要用于提取由大量底层特征组成的高层特征。卷积神经网络由若干个单层的卷积神经单元组成,这些单层网络主要分为卷积层、池化层(下采样层)、全连接层和批归一化层。在整个卷积神经网络中,激活函数对于网络的训练起到了重要的指导作用,也加强了卷积神经网络模型解决复杂问题时的拟合程度,有利于保证整个网络训练过程的顺利进行。接下来将会针对这些单层网络和激活函数来进行介绍。
............................
2.2 卷积神经网络简介
池化层也称下采样层,对于单张输入的图像特征图,池化层能够对局部窗口内的值进行数值计算。其操作的基本过程是将给定的局部窗口在整张输入的图像特征图上进行平移,同时在平移的过程中对于局部窗口范围内的数值进行计算。与卷积层不同的是,这个局部窗口没有参数。局部窗口移动时的步长存在特定要求:平移步长小于等于局部窗口的大小,另外步长要大于 1。根据计算的方式,可以分为平均池化(Average Pooling)、最大池化(Max Pooling)等,其中最为常用的是最大池化。两种池化方式的计算示意图如图 2-1所示。
............................
第三章 基于多层次深度学习网络的行人重识别 ........................ 13
3.1 引言 .................... 13
3.2 多层次特征融合网络 ..................... 14
第四章 基于擦除特征判别学习的无监督行人重识别 ............................... 23
4.1 引言 ......................... 23
4.2 擦除特征判别学习方法 ................... 24
第五章 总结和展望 ............................. 35
5.1 全文工作总结 .......................... 35
5.2 未来工作展望 ................................... 36
第四章 基于擦除特征判别学习的无监督行人重识别
4.1 引言
在过去的几十年中,大多数的行人重识别方法主要集中于距离度量学习[58-60]和特征学习[19,34]。尤其是近几年,深度学习[27,61]被广泛用于行人重识别。但是,目前大多数的行人重识别方法中使用的数据集都是手动标记的数据集。这些大型数据集的标记非常困难且昂贵,也限制了行人重识别方法在实际应用场景中的实用性。一些工作集中于利用生成对抗网络来增加数据集从而提高行人重识别方法的实用性。一些完全无监督方法利用聚类获取监督信号的方式来实现行人重识别。一些工作集中于利用生成对抗网络来增加数据集从而提高行人重识别方法的实用性。最近的一些无监督学习方法[27,62]通过从有标注信息的数据集中进行学习来获取信息。但是,由于不同数据集的图像风格等差距较大,这些方法在学习行人图片的局部细节信息方面仍有所欠缺。同时,由于跨摄像头的图片相差过大,在没有标记身份信息的情况下,很难找到同一个人在不同摄像头下的图片,所以这些无监督学习方法表现仍旧不佳。目前已经提出的基于全局特征的无监督行人重识别方法[29]在提取可辨别性特征方面仍需提升。大多数的行人重识别方法集中于提取合适的特征或是补丁,这些提取的特征对于姿势,照明,视角的变化具有鲁棒性,方便识别行人。然而现在提出的一些提