标签分类问题上,由于卷积神经网络参数共享这一特性,使得使用 CNN 进行多标签分类任务的时候,可以隐式地利用各个标签之间的联系,然而这种方式对于标签之间关系的建模是不够充分的。故 Chen 等人提出了基于图卷积网络的多标签分类模型(Multi-labelimagerecognitionwithgraphconvolutionalnetworks,ML_GCN),用以捕获和探索标签之间的依赖关系。该模型在对象标签上构建一个有向图,其中每个节点(标签)由标签的词嵌入表示,并且训练 GCN,以将该标签图映射到一组相互依赖的对象分类器中。该方法虽然考虑了标签之间的依赖关系,但是其 GCN 的输入是标签的词嵌入向量表示,只包含了文本信息,而不包含样本图像的信息,另外该方法的邻接矩阵在学习过程中是固定不变的,与对应的图像样本信息无关。行人属性通常包含多个类别,行人属性识别可看成是多标签分类领域的一个子领域,故研究者们现在通常将行人属性识别任务作为一个多标签分类任务来进行,在第三章节实验部分使用的对比方法均可归纳为多标签分类方法。在行人视频分析领域,沈庆等人[51]使用 ML_GCN 提取属性特征,获得属性之间的依赖关系,从而提高了行人重识别的效果。因此本章基于 ML_GCN模型,在其基础上,改变图卷积模块的构建方式,直接在特征图上进行图卷积,提出一种基于图推理的行人属性识别方法(Pedestrian attribute recognition based graphreasoning,GR)。
..........................
第 5 章 总结与展望
5.1 本文总结
对监控场景下的行人图像进行属性识别是一项具有挑战性的工作,行人数据普遍存在图像质量低、视角变化、遮挡以及光照不均等问题,使用传统的方式无法有效表示图像。基于深度学习的方法提取行人样本的属性特征,可以补充类别级别的识别,进而减少所需要的训练数据并提高鲁棒性。本文在前人的工作上,使用深度学习方法获得行人的有效表示,使用图卷积网络对属性之间的联系进行建模,提出了以下两个工作:
1)本文提出了一种基于图卷积和多尺度网络的行人属性识别算法,该方法首先通过一个多尺度属性感知模块来提取不同语义层次、不同粒度的属性特征,然后以基于数据驱动的方式,统计行人数据集中各类属性标签的先验信息,帮助构造图卷积网络模块,使得模型可以在复杂的标签空间中对属性标签的依赖进行建模,充分挖掘属性之间的联系。
2)提出了一种基于图推理的行人属性识别算法,该方法首先使用 ResNet50 提取图像特征,然后将特征图上每一个像素点作为图节点,直接在提取的特征图上进行图卷积操作,并使用 self-attention 的机制定义图的邻接矩阵,而无需使用先验信息来进行这一操作。
此外,本文在两个模型中,均使用加权的交叉熵损失函数克服行人数据集中数据不平衡现象,通过在 PETA 和 RAP 两个基准数据集上的实验,验证了所提方法的有效性。
参考文献(略)