................................
总结与展望
论文工作小结
随着互联网技术的飞速发展以及监控系统的日趋成熟,丰富多彩的视频资源涌现。因此如何高效理解视频信息成为人工智能领域一大热点。其中行为识别任务旨在针对视频中行为进行识别分类,在智能监控、人机交互、虚拟现实等领域具有广阔发展前景及应用价值。尽管基于 RGB 视频的行为识别技术取得了出色的表现,但仍受光照变化、复杂背景运动、相机运动因素的限制,并且难以描述动态信息。而基于视频计算的光流图像由于包含帧间运动信息可有效提取行为的时间运动信息。此外,由于去除背景及颜色信息,骨架序列对光照变化及背景运动等因素不敏感并成为行为识别任务中另一流行的有效原始输入数据。日趋多样的数据样本形式使得多模态数据间有效信息交互也成为研究者们重点关注的方向。此外,网络建模过程中对特征进行合理的权重分配有助于网络进一步关注有效信息并减少无关信息的干扰。本文主要基于多模态特征融合以及有效注意力强化进行深入研究:
(1)第三章提出一种基于多深度层次特征融合增强网络(MDFFEN)用于基于 RGB视频的行为识别任务。在 RGB 图像与光流图像数据两种模态信息交互阶段,提出了一种时空特征融合(STFF)模块以有效融合两支流特征,并将其嵌入至网络不同层次构建多深度层次特征融合(MDFF),捕获不同层次判别性混合特征。其次,为实现更合理的特征权重分配,将分组策略引入至空间注意力模块中并以并联方式联合通道注意力模块,使模型更关注对分类更有贡献的区域并过滤掉干扰分类的无关噪声信息。
(2)第四章提出了一个基于三元图卷积增强的双流网络(2S-TGCEN)用于基于骨架数据的行为识别任务。针对骨架数据结构灵活复杂的特性,引入了自适应图卷积模块对骨架特征中节点间依赖关系进行建模。通过将自适应图卷积模块由空间域拓展至时间及通道域,提出了三元自适应图卷积(TAGC)模块以提取出更丰富的上下文信息。此外,在特征强化方面,提出了基于图的三元增强(GTE)模块,利用图结构的邻接矩阵将节点连同其邻域一同映射至独立向量中,借助于本文所提的基于图结构的空间注意力(GSA)模块进行局部空间映射提取,并以并联方式联合时间注意力(TA)及通道注意力(CA)以对骨架特征进行更具合理的权重分配,实现特征强化。
参考文献(略)