本文是一篇计算机专业论文,本文主要基于多模态特征融合以及有效注意力强化进行深入研究: (1)第三章提出一种基于多深度层次特征融合增强网络(MDFFEN)用于基于 RGB视频的行为识别任务。在 RGB 图像与光流图像数据两种模态信息交互阶段,提出了一种时空特征融合(STFF)模块以有效融合两支流特征,并将其嵌入至网络不同层次构建多深度层次特征融合(MDFF),捕获不同层次判别性混合特征。其次,为实现更合理的特征权重分配,将分组策略引入至空间注意力模块中并以并联方式联合通道注意力模块,使模型更关注对分类更有贡献的区域并过滤掉干扰分类的无关噪声信息。
第一章 绪论
1.1 课题研究背景及意义
近年来智慧城市建设得到大力开展,其中视频监控系统发挥着不可或缺的作用,为生产生活带来便捷、提高社会安全保障水平。然而,传统视频监控系统高度依赖于相关工作人员的介入。随着人工智能技术与计算机处理能力的飞速发展,智能监控系统逐渐走入大众的视野,并日趋成熟。作为计算机视觉领域中的热门课题之一,行为识别技术具有广阔的应用前景,并在暴力检测、人机交互等各个领域发挥着越来越重要的影响。其中人体行为识别技术主要针对视频帧序列中的人体动作进行处理分析,通过运动目标检测及分类,从而实现理解和识别帧序列中人的个体及交互行为并以自然语言形式表述。其关键在于挖掘出可以表征目标行为的判别性特征。而环境复杂性、人体形态差异等因素为准确理解和分析视频帧序列中人体行为带来很大的挑战。
虽然早期基于 RGB 视频的人体行为识别技术[1]有着较大的进展,但受到光照变化、复杂背景运动及相机运动等因素限制,难以实现鲁棒性识别。从帧序列中估计运动信息是计算机视觉领域另一个重要方向,其中光流数据因其外观不变性而用于行为识别运动表征十分有效。因此早期大量基于 RGB 及光流图像的双流行为识别网络出现,通过联合两种模态优势,表现出优秀的性能。为捕获理解对象基础活动所需的全部信息并避免来自运动背景和光照变化等因素的干扰,一些研究者们对人体骨架数据进行提取。并且与其它模态(例如 RGB 图像,深度图)相比,骨架数据对诸如背景和无关对象之类的噪声更具健壮性。随着低成本人体骨架捕获系统(例如 Kinect[2])的发展以及姿态估计(Pose Estimation[3])算法的出现,一些大规模的 3D 骨架数据集被公开发布,并启发了许多基于骨架的人体动作识别和检测的相关研究工作[4]。随着信息技术的发展,更加多样化的数据信息涌现出来,并且不同模态数据间往往存在互补性关系,因此模态间信息交互以及联合预测问题也成为多模态行为识别任务的核心内容。鉴于此,本文提出针对不同模态数据提取的多层次特征进行特征融合,进而提取出更深层次的混合特征以对原始特征进行补充。此外,为赋予特征更合理的权重分配,本文针对不同模态特征结构提出注意力增强模块,进而使模型自适应地关注特征中重要区域并过滤无关噪声信息,以进一步提炼更具判别性的特征。
................................
1.2 行为识别任务面临的挑战
尽管近年来行为识别相关技术研究得到飞速的发展,但面对复杂的现实场景仍受到局限,难以实现落地实施。其主要存在以下问题:
(1)类内差异:由于不同执行者的人体形态及运动习惯不同,同一类别行为的表现形式往往也存在较大的差异,为行为建模及准确识别带来挑战。
(2)类间差异:不同的行为类别可能存在相似的构成,因此对行为中细粒度判别性信息的挖掘成为行为识别任务中又一大挑战。
(3)场景复杂性:场景中的光照变化、相机角度变化、背景变化等因素往往使动作的外观发生较大形变,大大增加了有效特征提取的难度。
(4)多模态交互的挑战:不同模态的行为数据往往蕴含着不同且互补的信息。因此,如何进行更深层次多模态交互进而充分利用多模态数据互补特性是计算机视觉领域的一大挑战。
............................
第二章 基于卷积神经网络的行为识别及注意力机制相关知识介绍
2.1 完整的行为识别流程
图 2-1 完整行为识别流程
完整的行为识别流程如图 2-1 所示。其通常包含五个主要步骤,即数据采样,数据预处理,训练数据标记,模型训练及模型测试。
(1)数据采样:从监控摄像头采样原始 RGB 视频数据是基于视频行为识别的首要任务,其次针对多模态人体行为识别任务,通常可分别由 TV-L1 算法[69]及姿态估计算法[3]提取光流数据及骨架数据。
(2)数据预处理:由于监控环境的复杂性,数据中往往伴随着大量背景噪声,因此针对采样后的数据进行数据增强和归一化处理通常可以提升网络建模的性能。
(3)训练数据标记:针对监督学习的行为识别任务,对训练数据的准确标记是网络有效建模的基础。
(4)模型训练:针对先前标记良好的数据进行建模从而生成具有行为判别能力的模型,是行为识别技术的重要步骤。
(5)模型测试:利用训练良好的模型对训练数据外的测试数据进行处理,将得出的各类行为中置信度最高的并与真实标签进行对比,是验证行为识别技术有效性的关键步骤。
.......................
2.2 基于卷积神经网络的行为识别相关知识
鉴于卷积神经网络方法在视频理解方面的出色性能,本文所提方法均是基于卷积神经网络进行设计。因此本节将针对基于卷积神经网络的行为识别方法展开更深入细致的介绍。其中本节主要从基于双流网络 RGB 视频行为识别方法以及基于图卷积神经网络的骨架行为识别方法两个方面进行详细阐述,并介绍常用行为识别数据集以及评估标准。
2.2.1 基于双流网络的 RGB 视频行为识别
图 2-2 双流行为识别网络
双流行为识别网络旨在通过利用多模态数据互补特性进行联合预测,进而提升行为识别准确率。Simonyan 等人[52]首次提出一种用于基于 RGB 视频行为识别任务的经典网络架构,即双流卷积神经网络。如图 2-2 所示,其将以单帧 RGB 图像作为输入的卷积神经网络作为空间流以捕获空间外观信息预测结果,并通过堆叠由两个相邻帧提取到的光流图像馈送至卷积神经网络作为时间流来提取时间运动信息。最后通过分数融合方式来联合两个支流预测结果,进而提升网络识别性能。然而,虽然双流网络在基于短帧序列的行为识别任务方面有着较为出色的表现,但由于采用单帧图像作为输入难以表达整个视频的信息,在捕获长期信息方面的性能表现较为逊色。
..............................
第三章 基于多深度层次特征融合增强的双流行为识别网络 ........................ 21
3.1 引言 ........................................ 21
3.2 整体框架 .......................................... 21
3.3 双流特征融合 .................................... 22
第四章 基于三元图卷积增强的双流骨架行为识别网络 ................................... 35
4.1 引言 ..................................... 35
4.2 整体框架 ............................................ 35
4.3 关节数据和骨骼数据 ................................... 36
第五章 基于三元图卷积融合的多流骨架行为识别网络 ........................ 45
5.1 引言 ........................................ 45
5.2 整体框架 ....................................... 45
5.3 骨架运动数据及视差数据的提取 ..................... 46
第五章 基于三元图卷积融合的多流骨架行为识别网络
5.1 引言
在上一章中,针对基于图卷积网络的骨架行为识别方法中的特征提取及特征增强问题,本文分别设计了三元自适应图卷积(Ternary Adaptive Graph Convolution,TAGC)模块和基于图的三元增强(Graph-based Ternary Enhance,GTE)模块。其中 TAGC 将图卷积操作由空间域拓展至时间及通道域以增强在时间及通道域上捕获上下文信息的能力。GTE 将提取的特征通过邻接矩阵将每个节点及其邻域映射至独立向量中来挖掘骨架特征中的局部注意。然而对于多模态信息交互,多数图卷积网络仅仅在最后 Softmax 层使用分数融合方法融合不同模态数据的预测结果,难以充分利用不同模态间互补特性。因此,多模态中更深层次的信息交互成为多模态骨架行为识别的一大挑战。
针对此问题,本文在第四章中 TGCEN 的基础上提出了基于三元图卷积融合的骨架多流行为识别网络(Multi-Stream Ternary Graph Convolutional Fusion Network)。首先,本文基于原始骨骼及关节数据以较小的计算量计算包含帧间差异的运动数据及包含视角间差异的视差数据。其次,为更充分利用不同模态数据间互补特性,本文提出了多流特征融合(Multi-stream Features Fusion,