计算机软件论文栏目提供最新计算机软件论文格式、计算机软件硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于图结构和多尺度网络的行人属性识别算法研究

日期:2021年01月26日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:851
论文价格:150元/篇 论文编号:lw202101152238282508 论文字数:25855 所属栏目:计算机软件论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇计算机软件论文,本文在前人的工作上,使用深度学习方法获得行人的有效表示,使用图卷积网络对属性之间的联系进行建模,提出了以下两个工作:1)本文提出了一种基于图卷积和多尺度网络的行人属性识别算法,该方法首先通过一个多尺度属性感知模块来提取不同语义层次、不同粒度的属性特征,然后以基于数据驱动的方式,统计行人数据集中各类属性标签的先验信息,帮助构造图卷积网络模块,使得模型可以在复杂的标签空间中对属性标签的依赖进行建模,充分挖掘属性之间的联系。2)提出了一种基于图推理的行人属性识别算法,该方法首先使用 ResNet50 提取图像特征,然后将特征图上每一个像素点作为图节点,直接在提取的特征图上进行图卷积操作,并使用 self-attention 的机制定义图的邻接矩阵,而无需使用先验信息来进行这一操作。


第 1 章 绪论


1.1 研究背景及意义

近年来,计算机领域的发展日新月异,由于底层基础硬件设施和上层算法的创新优化,以及计算能力的提升,使得更多的高科技产品揭开神秘面纱,人工智能开始向各行各业渗透,融入人们日常生活的方方面面;另一方面,世界各国也开始积极推动人工智能发展,并将其发展纳入国家战略中,在中国,政府通过多种形式支持人工智能发展,先后发布多个相关政策[1-2]。在此契机下,各相关行业得到空前发展机遇,智慧安防作为智能精准治理社会重要手段之一,其发展趋势也更为迅猛。随着“天网工程”、“雪亮工程”的深入开展,全国各地视频监控系统的部署已经基本完成,产生的视频图像数据呈爆炸式增长。依靠相对单一的传统视频监控手段,已经无法满足当前智慧安防精准识别、智能分析、主动响应等需求,所以如何使用人工智能技术来高效地挖掘监控数据中的有效信息,并将其服务于社会已经成为当前的一个研究热点。

基于监控视频进行的研究内容一般主要应用于安保、警务、治安、人车流监控等场景,而作为监控场景中的重要关注对象之一的人,与之相关的研究有行人重识别、行人轨迹追踪、行人视觉属性识别等。

在行人视觉相关的任务中,有效的行人属性特征可以应用于其他相关任务,根据提取特征反映的图像范围,我们可以将图像的视觉特征分为低中高三层,低层特征指的是轮廓、颜色、纹理和形状等特征,可以使用 HOG、LBP 或 SIFT 等算法来获得。中层特征则对于图像的局部内容有一定的概括能力,但并不完全。高层特征包含的语义信息比较丰富,是对图像内容的一个高度概括,与我们人类的理解更一致,并且对于光照变化、遮挡等干扰具有更强的鲁棒性。通过使用行人属性等语义特征,也可以为其他行人视觉任务提供重要信息,如行人重识别[3],行人追踪[4]等。综上所述,通过研究行人属性识别技术来提高识别效果是非常有必要的。

..................


1.2 国内外研究现状

我们使用行人属性识别算法提取可以描述行人的高层语义特征,如性别年龄等,并将提取到的特征用于其他行人视觉相关任务中,行人属性识别任务的流程如图 1-1 所示。行人属性识别作为行人图像的一种中层语义特征,起到了承上启下的作用,可以将如颜色、纹理等低层特征与符合人类认知的高层语义特征融会贯通,有助于高级语义信息的推断。

2007 年 Ferrari[5]等人首次使用视觉属性来进行目标对象的识别,提出由于不同对象之间通常拥有相同属性,对视觉属性建模而直接提取目标对象特征进行识别可以补充类别级别的识别,并允许在类别之间共享学习任务,他们使用一个概率生成模型来学习视觉属性,包括图像元素的外形(如颜色、纹理等)和整体空间布局(如相邻两条纹平行)。Farhadi 等人[6]将视觉属性作为中心来检测已知对象的异常方面,并识别未知对象。Kumar 等人[7]使用语义属性作为中间特征来辅助人脸识别,提出使用经过训练的二进制分类器来判断视觉外观属性的存在与否。Wang 等人[8]将视觉属性看作模型中的潜在变量,利用属性之间相互依赖的关系,在一个统一的框架中实现对象类别的预测和视觉属性的预测。

作为一种跨类别共享的中层语义特征,视觉属性将高维特征空间离散为简单易懂的表示形式,有助于人机之间的通信。由于视觉属性的这一特性,其在行人视觉分析任务中大放异彩,众多研究者也在行人属性识别领域成果显著。根据这些工作提取图像特征使用的方法,我们将行人属性识别任务的研究分为两个阶段,早期的研究工作是使用的手工设计特征,提取的图像特征为颜色纹理等低层特征。由于深度学习模型在计算机视觉领域成果斐然,研究者们开始基于深度特征来进行属性识别任务。我们将对这两个阶段的方法进行简单介绍。

.......................


第 2 章 基础知识


2.1 深度学习技术概述

2.1.1 深度学习概述

深度学习是机器学习研究中的一个子领域,也可称作层次学习,是一种对训练数据进行表征学习的方法。通过多个非线性的级联处理层,可以实现对原始数据从低层到高层、从具体到抽象的转换。它的表现形式通常为多层神经网络,在连续堆叠的层中,当前层的输入为上一层的输出,通过这种形式实现了数据特征在深度学习中的传递。由于其多个层次层层递进的设计理念,使用深度学习得到的特征的抽象性和复杂性也是逐层递进的,换句话说,它主要学习的是如何更恰当的表达原始数据的特征,能够发现大量数据中存在的某种复杂结构,利用反向传播算法获得数据的一个似然表示,并不拘泥于执行某个具体任务。

传统的编程方法中,通常需要我们给计算机指定命令,人为的将一个复杂抽象问题分解成多个机器可以完成的简单具体的小任务。作为一种受到生物学启发的编程范式,神经网络通过使用大量的神经元包含一个非线性函数,相互连接构建计算模型,模仿组成动物神经中枢的生物神经网络,从而让计算机可以从训练数据中进行学习,找到执行任务的一个解决方案。神经网络本身的构建及运算代表了一种逻辑策略,实质上是使用许多简单函数对某种复杂算法/函数逼近,这奠定了深度学习的基础。

自 2006 年发现深度学习技术以来,它的身影已经出现在很多领域的先进系统中,其在计算机视觉、自然语言处理等领域取得长足发展,数种深度学习架构如卷积神经网络、循环神经网络、深度信念网络等已被应用,并取得了较好结果,在某些任务上其性能甚至能与人类一教高下。这一方面得益于大数据时代,各种数据爆炸式增长,可用的标注训练数据也在不断增加,如 2010 年发起的 ImageNet 项目[29]。另一方面,随着科技的进步,针对深度学习的计算机软硬件基础设施得到完善,如GPU 集群等。此外,众多研究者在深度学习模型结构设计方向获得的成果,如GoogLeNet[30]、ResNet[31]等网络结构的提出,以及针对深度学习训练过程中出现的梯度爆炸、梯度消失等问题提出的训练策略,使得深度学习得以广泛应用。

..........................


2.2 图像多标签分类

图像作为最主要的信息表达方式之一,众多视觉相关任务使用其作为训练数据,图像识别作为计算机视觉领域的一项基础性任务而备受关注,已经成为目标检测、语义分割等任务的重要支撑。在不断提高的图像应用需求的推动下,围绕图像展开的研究如雨后春笋般涌现,然而因为目前图像数据质量的约束,如存在遮挡、模糊、形变等问题,如何高效提取图像特征,并得到一个精确的识别结果仍然是一个值得深入研究的问题。一般将行人属性识别任务作为一个多标签图像分类任务进行,本节对图像识别任务中的多标签分类任务做一个简单介绍。

根据识别任务目标对象数目的不同,我们可以将图像分类划分成两个部分:其一为单标签图像分类,是指每个图像样本仅对应一个类别标签,如图 2-1(a)所示,早期的传统监督学习大多基于此类图像数据。然而现实生活中目标样本往往更为复杂,通常包含多个类别的物体,具有多个语义内容,这也更符合人类的认知,如图 2-1(b)所示,因此相比于单标签图像二分类任务,基于多标签的图像分类研究更具研究价值,接下来将对图像多标签分类方法进行简单介绍。

图 2-1 单标签和多标签图像示例

...........................


第 3 章 基于图卷积和多尺度网络行人属性识别算法........................14

3.1 算法思想来源和概述............................14

3.2 多尺度属性感知模块...................................15

第 4 章 基于图推理的行人属性识别算法...................29

4.1 算法思想来源和概述.............................29

4.2 图推理模块..............................29

第 5 章 总结与展望...................36

5.1 本文总结................................36

5.2 研究展望.............................36


第 4 章 基于图推理的行人属性识别算法


4.1 算法思想来源和概述

在计算机视觉中,多标签图像识别是一项基础任务,其目的是预测图像中存在的一组目标对象。很多图像处理的问题可以看作是一个多标签图像分类问题,与多类别图像分类相比,由于输出空间的组合性质,多标签任务更具挑战性。 在真实世界中,目标对象通常同时出现,因此对目标标签之间的依赖性进行建模或许能够帮助多标签图像识别任务。

早期解决多标签识别问题的一种简单方法是不考虑标签之间的关联性,单独处理每一个目标对象,对每一个目标对象实施分类算法,将多标签分类问题转换为一组二分类问题,以预测目标对象是否存在。受益于深度卷积神经网络(CNN)在单标签图像分类领域取得的巨大成功,人们将其扩展到多