本文是一篇计算机软件论文,本研究所提出的迭代注意力模块IAM有着诸多优点,但还仍存在着一些不足。(1)鉴于IAM的非学习特性,与其相关的超参数需要人为设定。例如,混合模型的子模型个数。针对某一特定数据集,它可以通过多次实验来进行选择,使其数值能较好地概括该数据集中的语义种类。
第1章 引言
1.1 研究目的与意义
作为一种重要的计算机视觉任务,目标检测的现实需求大,应用场景广泛。例如,在新冠病毒流行的今天,目标检测技术被广泛应用于各大公共场所以检测是否佩戴口罩,为保障市民健康做出了贡献。在交通监管中,目标检测能给车辆计数、人群计数、交通流量控制等后续需求提供必要信息,为交通治理、治安管理带来了极大便捷,是智慧城市建设中不可缺少的重要技术。目标检测同时还是许多目标跟踪算法的重要前置任务。目标跟踪通常以目标检测的结果作为输入,并根据运动模型和目标外观等不断更新跟踪模板,实现稳定跟踪。因此,不理想的检测结果必然导致追踪准确度的降低。
在边境安防以及军事侦察中,先进的目标检测技术可以被集成到小型嵌入式设备中实现智能监控和报警,有效减轻巡查人员的负担。借助多模态信息(如红外、点云等)的辅助,目标检测算法可以搭载于单兵夜视仪、无人机等设备为夜间军事活动提供丰富的情报资料。对无人机而言,目标检测领域中的旋转目标检测可以为航拍地物提供精确的位置信息和设备型号分类,伪装目标检测可以用于识破大视角下人眼难以发现的敌方伪装。
得益于大规模公开数据集的不断完善,当前基于深度学习的目标检测算法的性能得到了大幅提高。然而,在交通、安防等开放场景中,由于天气或人为因素的影响,训练数据与真实场景往往有着较大的分布差异,导致检测器的鲁棒性和泛化能力严重降低。这一方面是由于检测算法本身的学习能力不足,难以通过训练集学习到足够泛化的特征表达。大部分研究从这一角度出发,提出更有效的学习方法以提升检测效果。另一方面,由于真实的应用场景是复杂多变的,即使训练效果很好,模型参数也不能很好地泛化到与训练集差异较大的测试场景中。因此,泛化能力强、稳定性高的目标检测算法有着较高的理论研究价值,并且在众多领域有着广泛的应用前景。
1.2 国内外研究现状
早期的目标检测方法主要基于手工特征,如形状、颜色、纹理等模板来完成。得益于深度学习技术的飞速发展,研究者们逐渐转向基于深度学习的目标检测,并取得了巨大的成功。本节将首先回顾目标检测技术的发展历程,再分别从通用检测器和注意力机制的角度介绍当前检测算法的提升方向。最后介绍目前交通目标检测采用的主流方法。
1.2.1 发展历程
在深度学习出现在之前,研究者们使用基于手工特征的方式来完成目标检测任务,其中一些方法的关键技术在当前的计算机视觉任务中仍发挥着重要作用。以基于HOG(Histogram of Gradient)特征描述的行人检测方法为例。传统检测方法先以滑动窗口的方式不断选取所给图像中的不同区域,然后用特征提取算法,如SIFT (Scale Invariant Feature Transform),Haar,HOG等对选中区域进行特征提取,最后使用机器学习方法,如SVM对所提取特征进行目标分类。为确保滑动窗口能够覆盖不同大小、形状的目标,窗口的设计也会相应变化。此外,将图像缩放成不同尺寸,也是提高目标检测精度、召回率的常用方法。并且类似的思想在基于深度学习的目标检测算法中仍有应用。
自从AlexNet[1]使用神经网络在图像分类任务上超越基于手工特征的方法后,深度神经网络的研究开始得到快速发展。在目标检测领域,R-CNN网络首次将卷积神经网络(CNN)用于目标检测,这里的R代表区域(Region)。它使用选择性搜索(Selective search)算法在原图像上生成建议区域(Proposal region),而后将其输入神经网络用于特征提取,最后基于候选框所提取的特征进行目标位置预测和分类。由于R-CNN需要先生成建议区域,在此基础上设计的目标检测算法都被归纳为二阶段(Two-stage)检测器。不难发现,对于二阶段检测器而言,提高建议区的质量,同时降低其运算开销,是提升检测性能的重要角度。例如,著名的SPPNet[2]通过空间金字塔池化在特征层面获取输入图像的多尺度表达,从而避免了在原图像层面的缩放和重复的卷积调用。尽管如此,SPPNet和此时的R-CNN方法仍然是以非端到端的方式完成训练,即对卷积层、线性层、SVM分类器以及目标框回归四个阶段分别训练。
第2章 注意力算法与混合概率模型
2.1 混合概率模型和EM算法
本研究所提出的迭代注意力算法IAM是基于自注意力算法和混合学生t分布(SMM)的EM推导的,而EMA是基于高斯混合模型(GMM)的EM推导实现。因此本节先给出GMM-EM推导结果,再给出SMM-EM的推导过程。
2.1.3 混合t分布的对数似然
在已知观测数据以及其服从的统计模型时,常使用最大似然法来求取该统计模型的具体参数。然而在模型含有隐变量或观测数据有缺失时,最大似然估计无法直接通过求导取得解析解。此时需要在估计过程中引入EM算法以迭代的形式不断估计和更新模型参数,在一定次数的迭代后,模型参数即作为最大似然估计的解。在定义t混合分布后,可以确定本研究所涉及的概率模型的参数包括:
1. 概率模型的均值,用于表示特征的语义中心;
2. 概率模型的后验概率矩阵,对应计算所得的注意力图。 而概率模型中的其他参数由于在自注意力算法中无法直接对应,因此在研究过程中,一方面将它们通过经验值初始化,另一方面在EM算法的各个步骤均不进行相关估计和更新操作。
2.2 计算机视觉中的自注意力算法
自注意力算法起源于自然语言处理(NLP)领域的Transformer模型,如今已经被成功迁移到视觉任务中[63] [65],并且取得了令人称赞的成绩。更多的研究将Transformer的自注意力计算作为单独的模块引入卷积神经网络(CNN)中,这也是本研究的做法。本节将介绍三种自注意力的实现方式,即传统的非局部注意力,后续的基于特征映射的可学习自注意力,以及基于特征映射的非学习式的自注意力。其中第三种为本研究采用的方式。
2.2.1 非局部注意力
自注意力算法受到广泛关注源于2017年由Google Mind团队在机器翻译任务中提出的Transformer[67]。在此之前,自注意力常被用于NLP中的阅读理解[68],摘要总结[69]等研究中。它首次在不使用卷积神经网络(CNN)以及循环神经网络(RNN)的情况下,仅仅用基于Transformer自注意力架构实现了该深度学习框架,并取得了先进的实验效果。在基于卷积神经网络的计算机视觉领域,自注意力算法的实现首先被非局部(Non-Local)注意力提出,以发现图像不同位置的特征点间的关联,从而给它们分配相应的注意力权重。和基于Transformer的架构一样,一个自注意力算法的实现大致可以分为两个步骤,分别是注意力图的计算,以及图像特征重构。其中,注意力图包含了对原特征图每个位置所分配的权重,它将作用于变化后的特征图以实现重构。
第3章 基线检测器 ........................ 22
3.1 ATSS样本分配器 ................................. 22
3.2 VFNet基线检测器 ................................... 23
第4章 概率指导的检测器IA-Det ......................... 27
4.1 整体网络框架 ................................ 27
4.2 迭代注意力模型IAM ................................ 28
第5章 实验验证及结果分析 ....................... 37
5.1 实验设置 ........................... 37
5.1.1 数据集和评价指标 ........................... 37
5.1.2 评价指标 ...............37
第5章 实验验证及结果分析
5.1 实验设置
5.1.1 数据集和评价指标
本研究进行四组目标检测实验以充分验证IA-Det在多种交通环境下的有效性和鲁棒性,最后设计一组语义分割实验验证IAM对其他任务的适应能力。实验采用的数据集和训练方法如表1所示。
所有实验中均采用Resnet-101作为骨干网络,且使用mmdetection检测框架中的默认训练方案,即训练12轮次(epochs)。对于数据增强的选择,仅采用mmdetection官方默认的缩放(resize)以及随机翻转(random flip)两种。以表1中的消融实验为例,它在PASCAL VOC数据集上进行。训练及测试图像大小为1000×600,使用4张Tesla T4 GPU训练,并且每张GPU分配4张训练图片,即batch-size为16。整个数据集共训练12轮次.初始学习率设置为0.01,并分别在第8和第11个轮次以0.1的倍率衰减。
对于YOLOv7这一对比方法,由于其架构的特殊性,本研究仍采用其原始默认训练轮次300。此外,在语义分割实验中,训练策略保持与EMANet[36]一致,即用多尺度图像训练,单尺度图像测试,迭代次数为30,000。
第6章 总结与展望
6.1 总结
稳健的交通目标检测对交通监控、自动驾驶、智慧安防等应用有着重大意义。然而当前针对交通目标检测的研究还有着以下不足:(1)完全基于深度学习的检测器在未知数据上的泛化能力总是收到训练数据的限制;(2)专用检测器在特定场景下能取得较好效果,但难以推广到多目