(1)第三章提出了基于交互关系简约建模算法,在进行个人初始特征提取的时候,运用了YOLO v5、DeepSort和RoIAlign结合的方式提取到了丰富全面的个人特征,为后面构建初始化交互关系图做了充足的准备,在进行关键交互关系特征提取的时候,运用了图卷积网络来进行交互关系的推理,进而找到了关键成员以及他们之间的交互关系,然后与最初经过I3D网络提取的场景时空特征进行融合,得到了群组帧级特征,将此特征经过层叠LSTM得到了具有时间上下文联系的运动特征,为了使网络轻量高效,进一步简约关键交互关系特征,又设计了一个子网络得到每一帧的个人行为得分,再与主网络中每一帧的群组行为得分进行交合计算,得到每一帧的交集相似度系数,即每一帧的重要性程度,这样就找了关键时域,实现了整体网络的轻量高效。实验证明,本章算法是有效的。
(2)第四章在第三章的基础上提出了基于GAT-Transformer的群组行为识别网络,在提取初始特征的时候,加入了OpenPose姿态估计算法,从表4-1的基线实验可以看出OpenPose的强大功能,在进行交互关系推理的时候,采用了比图卷积网络效果更好的图注意力网络GAT,GAT拥有GCN没有的自注意机制,可以根据成员间的交互特征从不同角度计算成员对之间的注意力系数,使得到的更新后的成员特征更加准确,在进一步简约交互关系的方法中,使用了比计算交集相似度系更好、更轻便的Transformer网络。首先,使用Transformer网络就无须再设计一个子网络加重网络的负担,其次,Tranformer的训练速度比LSTM更快,此外,其内在的自注意力能够产生更具可解释性的模型,可以从模型中检查注意力分布,各个注意头可以学会执行不同的任务。
参考文献(略)