本文是一篇工程硕士论文,本文研究的主要内容是对视频场景中的群组行为进行识别,针对如何构建群组成员间的简约交互关系以及如何从时序上优选区别性强的时空特征构建简约的行为描述符,提出了两种算法,一种是基于交互关系简约建模算法,另一种是基于GAT-Transformer的算法。
1绪论
1.1课题研究背景与意义
1.1.1课题研究背景
近年来,视频中的行为识别已经成为了计算机视觉领域[1][2]、深度学习[3]和模式识别领域[4]的一个重要课题,并在体育赛事分析、视频监控、智能安防、人机交互等诸多领域具有重要的应用。视频场景的复杂性可能从一个人执行简单的动作,到一群人进行某种集体行为而变化。随着对单人行为理解的更加深入和复杂数据集的出现,研究人员已经开始着手于研究多人场景,因为它更接近于现实的案例(例如,在排球比赛中多达12人涉及大量交互个体的活动)。与传统的个体行为相比,群组行为以人群动作作为研究对象。因此,群体行为的模型不仅要了解个体的行为,还需要了解每个人之间的关系。
新型冠状病毒从2020年爆发持续到现在仍然没有结束,很多国家因在疫情期间举办大型群体聚集活动而付出了惨痛代价。据英国媒体报道,苏格兰政府宣布禁止举行500人以上的群体聚集性活动。瑞士政府宣布禁止在同一个场所举行超过1000人的群体活动。法国卫生部宣布,禁止在密闭场所举行超过5000人的群体聚集性活动。马来西亚政府颁布了行动管控指令,禁止所有群聚行为,包括宗教、体育、社交和文化活动等。我国是一个有着14亿人口的人口大国,随着现代社会的飞速发展,城市人口变得越来越密集,使得众多大型的人群活动也变得愈发频繁。今年3月全国多地突发疫情,上海疫情最为严重,疫情形势曾经单日突破2万例,大量群聚活动给疫情防控带来了极大挑战。除此之外,据国内外媒体报道,每年在旅游季、演唱会以及大型群组活动中,因群聚造成的严重踩踏事件就有数百起,因群聚打架造成的人员伤亡数量不计其数。社会的快速发展,对有效防范大规模群组事件的发生提出了迫切要求,如何构建一个高效稳定的群组行为识别算法,成为了一项具有挑战性的任务。
1.2群组行为识别的国内外研究现状
群组行为识别早期由Choi等人[14]在2009年提出,利用场景中行人的空间分布以及他们的姿势和运动来实现稳健的群组行为识别,并提出首个具有代表性的集体行为数据集(Collective Activity Dataset:CAD)。2012年,Lan等人[15]提出了广播曲棍球数据集(Broadcast Filed Hockey Dataset)用于在多人场景中识别人类活动的分层模型。2016年,Moustafa等人[16]提出了更具挑战性的volleyball数据集用于群组行为识别。2020年,Yan等人[17]提出了目前最大、最具挑战性的群体行为分析基准数据集:NBA数据集,该数据集主要用于弱监督的群组行为识别。这些数据集大大促进了群组行为识别的方法的提出和优化,总的说来它们可以大致分为两类:一类是基于传统手工设计特征提取及群组关系描述的方法;另一类是基于深度学习的方法,深度学习的方法又可分为无交互关系建模和有交互关系建模两种模式。下面,将简要概述这些类别。
1.2.1基于传统手工的群组行为识别
传统的基于手工设计特征提取及群组关系描述的群组行为识别方法可以分为两类:自上而下方法和自下而上方法。自上而下的方法从群体运动和互动的角度分析群组行为,这些方法的缺点是缺乏对活动的详细描述,无法在个人层面上充分利用特性;自下而上的方法侧重于识别每个个体,并基于个体特征及其统计数据的集合来描述活动。因此,它们对由于遮挡或漏检导致的个体特征提取失败很敏感。
(1)自上而下的方法
Vaswani等人[18]将群组成员交互关系建模为二维平面中的交互关系多边形,该多边形顶点表示成员目标,边表示他们之间的交互,该模型用于异常群组行为识别。具体说来包括两部分,第一部分是学习正常群组行为的形状,该形状是根据数据集中标定好的成员位置来构建的,通过大量的学习进而可以求得正常的群组行为的平均形状和统计特征,以此作为模板;第二部分是通过粒子滤波追踪多边形形状随时间推移的变化来推测群组行为的变化,与模板进行对比来检测异常行为的发生。更深入地,Khan等人[19]提出了将整个群组交互关系建模为一个三维多边形,每个成员表示为三维多边形的一个角,三维多边形中的每个成员根据手工设计的特征来提取其运动轨迹,然后根据参与群组行为的成员的轨迹和由他们之间的交互关系构成的多边形中推断出最终的群组行为。
2 群组行为识别的关键技术
2.1引言
群组行为识别方法中,主要涉及四种关键技术:特征提取技术、交互关系建模技术、关键时域候选技术以及行为识别技术。而前三个技术是群组行为识别中关键的环节,决定着群组行为识别的性能。本章将重点详细阐述特征提取技术、交互关系建模技术和关键时域候选技术这三个关键环节。特征提取涉及个人特征、场景特征和群组特征等,而提取这些特征的效果直接影响着群组行为识别的结果;交互关系建模技术包括组内交互关系建模以及组间交互关系建模,它是跟随时间变化而不断更新的,交互关系建模的效果直接影响了群组行为识别的结果;关键时域候选技术是从视频动作时间跨度变化大的区域中优选出感兴趣的动作片段,从而降低网络模型的冗余性,达到最佳的识别效果。针对时空特征提取技术,本章将详细介绍三种最具代表性的时空特征提取方法:3D卷积神经网络、长短期记忆网络(Long-Short Term Memory:LSTM)和I3D网络;针对交互关系建模技术和关键时域候选技术,本章将分别综述几种典型的模型及其基本原理。最后,将对本章内容进行小结。
2.2时空特征提取技术
在时空特征的提取过程中,由于设备视角的变化、光照强度的改变和复杂的背景等因素都会直接或间接导致特征提取效果不佳。因此,针对不同的数据集,需使用合理且高效的时空特征提取技术,以此提升实验的结果。接下来,将介绍3D卷积神经网络以及本文算法里用到的I3D网络和LSTM网络。
2.2.1 3D卷积神经网络
2D卷积神经网络常用在计算机视觉、视频图像处理领域,在对视频的处理中,是对每一帧图像分别利用CNN来进行识别,从而得到图像的空间特征,但是它没有考虑时间维度信息。而行为识别中,最有价值的特征往往是运动特征,而运动特征会随着时间的变化而不断变化,仅用2D卷积来提取连续帧间的人体特征是没有意义的,存在着局限性。3D卷积在神经网络的输入中增加时间这个维度,就可以同时提取时间的空间特征来进行行为识别和视频处理,因此,在行为识别中,3D卷积神经网络被广泛使用。
3 基于交互关系简约建模的群组行为识别网络 ................................... 28
3.1引言 ...................................... 28
3.2算法网络架构概述 ........................ 29
4 基于GAT-Transformer的群组行为识别网络 .......................... 47
4.1引言 .......................... 47
4.2总体算法架构概述 ........................... 48
5 总结与展望 ............................... 65
5.1总结 ..................................... 65
5.2展望 ..................... 66
4 基于GAT-Transformer的群组行为识别网络
4.1引言
第三章的基于交互关系简约建模的群组行为识别算法虽然取得了较好的准确率,但也有如下两点不足之处。
其一:GCN确定关键成员的方式是根据交互关系特征进行节点成员信息的融合,交互关系越强节点成员聚合信息越多,就会成为关键成员,但GCN的缺点是将所有交互信息(如:外观、位置等)都同等对待,即不能对不同的交互信息基于不同程度的关注,故不能将交互关系特征更好地融入模型中,所以,GCN方法下的群组成员交互关系建模精度有待提升。因此,本章提出用GAT进行关键人物提取,GAT就是将GCN加入了注意力机制,其内置的自注意机制可以从不同方面(如:外观、位置、姿态等)着重关注成员间的交互信息,在成员之间生成注意力系数,将这些注意力系数级联后可以得到更加丰富、准确的成员特征,注意力系数越大节点成员聚合信息越多,就是关键成员。
其二,第三章在提取关键时序特征方面需要额外设计一个子网络来计算当前帧的成员行为属性得分,然后再与主网络中的群组行为类别得分进行交合计算其交集相似度系数(ISC),这会使网络变的繁重、增加网络的负担。本章为了解决这一问题,使整体网络更轻便、高效,采用了比第三章效果更好的方法,即改进的Transformer,它由两个并行的时间编码器和一个时间解码器组成(其中,时间解码器只包含了多头注意机制和前馈网络),采用了注意力机制,加权计算输入数据每个节点的联系。并且采用分布式训练,在GPU上比LSTM具有更好的训练效率。在分析预测更长的时间动作序列时,能够捕捉间隔较长的动作时间上下文信息关联效果。
5 总结与展望
5.1总结
本文研究的主要内容是对视频场景中的群组行为进行识别,针对如何构建群组成员间的简约交互关系以及如何从时序上优选区别性强的时空特征构建简约的行为描述符,提出了两种算法,一种是基于交互关系简约建模算法,另一种是基于GAT-Transformer的算法。这两种算法都是分别从理论和实验两方面进行了论述和验证,实验表明,利用深度学习提取的群组中的个人特征以