软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于单目视觉的三维人体姿态估计的方法探讨

日期:2025年02月27日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:0
论文价格:150元/篇 论文编号:lw202502250858412122 论文字数:32022 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇软件工程硕士论文,本文针对现有三维人体姿态估计算法存在的问题,设计了基于单目视觉的三维人体姿态估计方法。

1 绪论

1.1 研究背景及意义

人体姿态估计(Human Pose Estimation, HPE)是计算机视觉领域中重要的研究之一,其目的在于从给定的图像或视频中提取人体关节点位置。目前可穿戴动作捕捉系统依靠服装表面的小型传感器进行动作捕捉,此方法虽然技术成熟,但存在操作复杂,设备昂贵和场景受限等问题,受众面不广泛。得益于深度学习的快速发展,基于视觉的人体姿态估计方法只需将图像或视频作为输入,其简便性和经济性赢得了研究人员的广泛青睐。

根据人体姿态维度信息的差异,人体姿态估计任务主要分为两种:二维人体姿态估计和三维人体姿态估计。二维人体姿态估计的目标是在图像或视频中识别出人体关节点,并将这些关节点按照一定顺序连接,在图像上形成二维投影;三维人体姿态估计的目标是将二维图像上的关节点及角度特征映射到三维空间中。尽管二维人体姿态估计的精确度已经有了很大的提升,但在实际的姿态估计中,遮挡和自遮挡现象仍然是一个难题,这往往导致算法容易产生姿态的歧义性;此外,二维姿态估计因缺乏三维空间中的深度信息而导致应用受限。为了获得更全面的视觉感知效果,科研人员正在转向三维人体姿态估计的研究。三维人体姿态估计能够揭示人体的几何构造和运动细节,近年来被应用于影视动漫、智能安防、医疗辅助和运动分析等领域。

1)影视动漫领域

在影视动漫领域[1]中,通过三维人体姿态估计可以更加准确地模仿人体运动姿势,如跳跃、奔跑、打斗等,使得场景效果更具真实感和视觉冲击力;另外,利用三维人体姿态估计也可以在虚拟环境中模拟场景和角色的动作,帮助导演预先规划镜头构图和动作指导,提高拍摄效率和成品质量。但是利用可穿戴设备进行行为捕捉往往面临成本较高和场景受限制等问题,而利用视觉实现三维人体姿态估计则会克服上述问题,促进影视动漫产业的发展。

2)智能安防领域

在智能安防领域[2]中,监控系统可以通过三维人体姿态估计技术实时检测摄像头画面的一些异常姿态和行为,比如养老院的跌倒行为,水塘边的落水和挥手求救等行为。此外,通过对监控区域内的人体姿态和动作进行分析和识别,还可以及时发现潜在的入侵行为,比如破坏门锁,偷窃等行为。三维人体姿态估计还可以结合人体姿态信息进行区域访问控制,利用特定的姿态充当安全密码,只允许授权人员进入特定区域。这打破了以往智能安防领域在行为识别和智能决策方面的局限性,为智能安防领域带来了更为精准、全面和智能化的安全监控解决方案。

1.2 国内外研究现状

1.2.1 二维人体姿态估计

早期的二维人体姿态估计主要分为基于人体骨架模型和基于图像全局特征两种方法。前者对身体各部位进行约束,并根据关节作为边界点将骨架拆分为若干组。Yang等人[5]利用混合网络模型对人体各部位间的关系进行建模,以便更切合真实姿态。Rogez等人[6]提出利用随机决策树的方法来将人体姿态估计任务转换为分类问题,从而处理此类任务。但是上述两类方法得出的二维关节点坐标精确度受限,随着深度学习的快速发展,基于深度学习的二维人体姿态估计算法开始大量涌现。2014年,Toshev等人[7]首次将卷积神经网络应用到人体姿态估计领域,此方法以AlexNet[8]为基础,利用级联网络的结构逐步确定二维关节点坐标,该方法借鉴早期的回归思想,却忽略了相邻关节点之间的联系。Tompson等人[9]通过深度卷积神经网络和图卷积神经网络为关节点生成热图,并利用人体关节点之间的联系,结合马尔科夫随机场对预测坐标进行优化。基于热图回归的方法将二维人体姿态估计从关节点回归问题转变成关节点检测问题,保留了关节点的空间信息,并被众多基于深度学习的方法所采用。Newell等人[10]提出的堆叠沙漏网络(Stacked Hourglass Networks, SHN),其核心思想在于通过多次编解码操作,实现对特征图的高低分辨率处理,进而实现全局与局部特征的融合,提升姿态估计的精准度。相较于堆叠沙漏网络通过下采样提取图片多尺度信息的操作,HRNet[11]则采取了并行连接的方式,将高分辨率与低分辨率的子网络相互连接,并通过多尺度特征融合技术,使得网络在保持图像原始特征的同时,也避免了在上下采样过程中可能导致的关节点信息损失。在自顶向下的二维人体姿态估计方法中,Chen等人[12]提出的级联金字塔网络(Cascaded Pyramid Networks, CPN)是比较有代表性的,它由GlobalNet和RefineNet两部分组成,前者通过特征金字塔结构对不同尺度的关节点信息进行检测,后者利用卷积和上采样获取更多上下文信息,以解决关节点被遮挡的问题。

2 深度学习及三维人体姿态估计基础理论

2.1 深度学习基础理论

2.1.1 注意力机制

深度学习中的注意力机制是一种模仿人类视觉和听觉系统的方法,它主要用于处理序列数据和构建序列到序列的模型,传统神经网络中每个神经元的输出只受前一层神经元输出的影响,而注意力机制中每个神经元不仅受前一层神经元输出的影响,还会根据输入数据的不同部分做加权处理。通过引入注意力机制,神经网络能够自动地学习并处理输入数据的特定部分,而不是一次性处理整个输入序列,这大大提高了模型的性能和泛化能力,并使其能够很好地处理长序列数据。目前注意力机制有多个变种,最常用的包括缩放点积注意力、自注意力和多头自注意力等。

缩放点积注意力:在Transformer架构中,缩放点积注意力通常用于实现多头注意力,具体而言,多头注意力首先对输入矩阵进行多个头的线性变换,并针对每个头的变换结果分别计算缩放点积注意力,最后将每个头得到的注意力结果合并,通过线性变换输出结果。

多头自注意力:多头自注意力(MSA)是自注意力机制的一种复合形式,它允许模型同时关注序列中的不同表示子空间,并且通过多个独立的注意力头部对注意力权重进行并行计算,然后将结果拼接或加权求和,从而提高模型的表达能力,图2-1展示了多头自注意力的模型结构。

软件工程硕士论文怎么写

2.2 三维人体姿态估计理论基础

2.2.1 人体姿态估计理论

人体姿态估计旨在通过分析图像或视频中的人体来推断其姿态信息,如关节的位置和角度等。对于单目视觉的三维人体姿态估计来讲,首先对输入的图像进行预处理,包括图像的去噪、增强、裁剪等,然后使用二维姿态检测器检测RGB图像的二维关节点信息,最后利用深度学习模型将二维关节点映射到三维空间中。近年来,二维人体姿态估计的模型效果较为优秀,但三维人体姿态估计却面临着很多难点。一方面,传统的图像只包含了二维信息,而要估计三维姿态,则需要准确的深度信息,所以该问题本身就是一个高度非线性问题。另一方面,三维人体姿态估计受自遮挡问题影响,会出现姿态的歧义性,即一个二维姿态可能对应多个三维姿态,使得姿态估计的难度增加。除此之外,在实际场景中图像的背景变化可能会干扰人体姿态的准确估计,对于背景干扰,需要设计有效的背景去除或抑制方法;而对于噪声干扰,则需要采用有效的噪声抑制技术。最后,构建大规模且高质量的三维人体姿态数据集也是一项耗时耗钱的工作,这就导致当前科研领域中姿态估计数据集不完善的问题。

2.2.2 坐标系转化

三维人体姿态估计需要使用Human3.6M数据集的RGB视频以及对应关节点标注,在模型训练前,需要先对数据集做预处理操作。其中,四台参数一致的摄像机在不同角度捕捉同一人物的影像信息,而人体的三维关节点信息则由动作捕捉设备获取,此过程需要将设备捕获的三维坐标与摄像机捕获的坐标相对应。在此环节中由动作捕捉设备得到的三维坐标代表现实世界坐标,摄像机获取的坐标即为相机坐标。

3 基于多假设双分支交叉注意力网络的三维人体姿态估计算法 ...... 15

3.1 引言 ............................... 15

3.2 多假设双分支交叉注意力网络 ........................... 15

4 基于多尺度时空编码器网络的三维人体姿态估计方法 .................. 31

4.1 引言 ........................... 31

4.2 多尺度时空编码器网络........................... 32

5 总结与展望........................ 47

5.1 总结 ............................ 47

5.2 展望 ...................... 47

4 基于多尺度时空编码器网络的三维人体姿态估计方法

4.2 多尺度时空编码器网络

4.2.1 网络结构

图4-1展示了所提出的多尺度时空编码器网络架构。该网络主要包括序列填充模块、时空编码器、多尺度模块以及回归头。

软件工程硕士论文参考

5 总结与展望

5.1 总结

三维人体姿态估计是计算机视觉领域的重要研究方向,其目的在于从二维图像或视频中恢复出人体在三维空间中的姿态信息,具有深远的理论研究意义和重要的工程应用价值。但目前基于深度学习的三维人体姿态估计方法仍存在深度模糊和模型泛化能力差等局限性,本文针对现有三维人体姿态估计算法存在的问题,设计了基于单目视觉的三维人体姿态估计方法。本文的研究内容总结如下:

1)本文提出了一种多假设双分支交叉注意力网络DBCAN。在DBCAN中,本文搭建了一种多假设姿态估计框架,该框架利用残差将生成的多个三维姿态进行连接;每个假设通道由单独的空间编码器和关节分区时间编码器构成,空间编码器用来学习每个帧所有关节点间的空间信息,关节分区时间编码器通过对人体关节点进行分区,进而学习各个分区间的时间信息,降低了运动造成的误差累积;双分支交叉模块通过双分支交叉注意力对来