计算机应用论文栏目提供最新计算机应用论文格式、计算机应用硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于ShiftTopK模型的少年连环拳评分模型的思考

日期:2025年04月07日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:27
论文价格:150元/篇 论文编号:lw202504042023489808 论文字数:33525 所属栏目:计算机应用论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇计算机应用论文范文,本文以上海中考武术项目——少年连环拳作为切入对象,将人工智能等数字化技术应用于整个考试评分流程中。

第1章 绪论

1.1 课题研究背景及意义

1.1.1 少年连环拳

武术是中华民族传统文化的重要组成部分,作为四大国粹之一,最能体现传统文化的凝聚力、影响力和创造力,教育部和国家体育总局对其重视程度逐年提高。

2022年,中华传统武术正式被纳入新课标作为一门学科,这一政策保障为武术传承指明了方向。传统武术作为体育与健康科目的重要学科,将为其传承注入更多生命力。武术作为学科教育,将不仅注重武术的运动与竞技属性,还加入了教育属性。因此,武术的课程结构和教学方式需要改革,对武术人的自身素养和能力也提出了更多要求。未来,复合型武术人才将会更加受重视,他们既具备知识,又具备能力,将拥有更广阔的职业发展空间。武术学科教育将塑造下一代孩子们健康、有效、系统、科学的体育运动理念。中国武术的智慧运动系统对肌肉、神经和骨骼的锻炼更加快捷有效,且简单易学。这不仅能全面提升体育课程的质量,还有可能引发全民习武健身的热潮。

2023年9月,《上海市促进中小学校体育工作高质量发展进一步提升学生体质健康水平行动方案》提出总目标:进一步健全教学、赛事和评价体系,完善“家校社协同共育机制”,强化场地设施和师资队伍保障能力,增强学校体育发展活力和育人成效,让学生热爱体育运动,学校推动体育工作高质量发展,家长和社会力量支持体育教育,学生体质健康水平稳步提升,培养全面发展的优秀人才。

2023年世界数字大会提出“数字变革与教育未来”主题,使得发展数字教育,推动教育数字化转型成为大势所趋、发展所需、改革所向。在融入数字化技术之前,传统武术教学的范式是老师在前面示范动作,学生在后面跟着模仿,这也是目前中小学最常见的教学方式,也是导致学生喜欢武术却不喜欢武术课的重要原因。

1.2 研究现状

1.2.1 姿态估计研究现状

根据场景的不同,姿态估计可以分为单人姿态估计和多人姿态估计,多人姿态估计可以通过目标检测加单人姿态估计实现,因此本文聚焦于研究单人姿态估计。根据对坐标点表征建模方式的不同,单人姿态估计(以下统称为姿态估计)又可以分为基于回归的方法和基于热力图的方法。

基于热力图的方法早期由于计算资源不足和模型能力不足等因素的影响,模型通常以滑动窗口的形式在完整图片上滑动识别单独的人体部位,Jain A等人[11]训练多个独立的卷积神经网络,以滑动窗口的形式对身体部位做二分类,重复多次二分类的过程实现不同关节点的识别,证明了神经网络在姿态估计任务上的可行性。需要注意的是,上述方法是串行运行的,图像分辨率越大,模型的工作效率越低。随着深度学习技术的发展和GPU计算能力呈指数级的增长,后续的学者将上述的过程逐步改进后演化为当前的主流方法:先用视觉骨干模型对高维视觉特征进行提取,然后设计高效的解码器对图像中的每个像素进行多分类,取每个类别显著性最高的像素作为骨骼关键点所在的位置。基本的研究架构确定之后,大量的工作投入到攻克更加困难的识别场景中,针对研究过程中涌现出的遮挡、拥挤等复杂的实际应用场景问题,不断改进模型架构,使得模型的精度和效率不断进步。

改进模型架构的相关工作有:Ramakrishna V等人[12] 提出了一种基于推理机制的姿态估计方法,通过层级结构和级联推断的方式,能够准确地推断出复杂的姿势信息,该方法在性能和速度方面相较于以往方法都表现出色,具体来说就是从水平和垂直两个方向对训练过程进行演绎,结合多尺度信息输入,在最后一次演绎时得到所有部位的预测热力图。Tompson J等人[13]提出coarse-fine级联网络,是早期多尺度信息的利用方式,Bulat A和G Tzimiropoulos[14]结合部位检测和部位回归改善了遮挡问题,Xiao B等人[15]提出了简单的以Resnet为编码器,反卷积为解码器的架构,有力地证明了简单架构的可行性。Papandreou G等人[16]提出在预测热力图的同时,也预测偏移量,拓宽了模型的信息量,提高预测的精度。Newell A等人[17]提出了一种新颖的堆叠沙漏网络,成为了姿态估计领域的通用模型。

第2章 ShiftPose姿态估计模型

2.1 姿态估计模型总览

基于自注意力机制的Transformer(Vaswani A等人[69])已经成为自然语言处理任务上最流行的模型,并显示出捕捉远距离关系的出色能力。最近,许多研究人员试图将基于Transformer的架构应用于视觉领域,并在图像分类、对象检测和语义分割等各种任务中取得了有竞争力的结果。ViT(Dosovitskiy A等人[52])是第一个用纯Transformer取代传统卷积神经网络主干的工作。输入图像首先被分割成若干个不重叠的正方形块,这些块类似于NLP领域中的单词标记。然后,这些块被馈送到堆叠的标准Transformer层中,用以建模块与块的全局关系并提取特征以进行分类。ViT的设计极大地启发了后续基于Transformer的计算机视觉领域其它模型,例如Zheng S等人[70]用于语义分割的SETR和Xu Y等人[36]用于姿态估计的ViTPose。

自注意力机制允许模型在处理序列数据时关注输入序列中不同位置的不同部分,而不是简单地将注意力集中在固定的位置。多头自注意力则是在这个机制的基础上进行扩展的一种方式。多头自注意力使用多个注意力头,每个头都学习一组不同的注意力权重。每个头产生的注意力输出被拼接在一起,然后通过线性变换进行处理,最终得到最终的注意力输出。

计算机应用论文怎么写

2.2 图像编码器

ShiftPose图像编码器的模型概览如图2-2所示,模型的整体架构和Swin-Transformer相似,先通过预处理将图像转换为高维特征,然后通过若干个stage形成金字塔结构,既可以融合多尺度信息,增强模型捕捉骨骼关键点的能力,也能通过降采样来达到减小计算量的目的(Dong X等人[50,Liu Z等人[51])。

在预处理阶段,模型先通过分片层将完整大小的图片分割成一个个大小为4×4的patch,然后通过线性嵌入层将patch变换为高维的token表示。预处理完成之后,在下采样阶段,输入依次进入shift stage和下采样模块,在上采样阶段,输入依次进入shift模块和上采样模块,并且通过桥接结构将多尺度的信息进行融合,最后通过一个空间门控模块整合输出。每次上采样和下采样都是以2为单位进行缩放变换,图上标注了张量经过各个模块后的尺寸。

Shift的概念并非本文首创,受到Lin J等人[74]提出的视频动作识别模型TSM的启发。TSM中的Time Shift模块引入了时间偏移机制,实现了动态特征交互,减少了冗余计算,提高了计算效率。实验证明,应用TSM模块的视频理解模型在多个任务中取得了显著的性能提升,尤其在动作识别和行为分析领域。

第3章 Top-K微调动作识别模型 .................... 28

3.1 动作识别模型选择 ................................. 28

3.2 MVD动作识别模型.............................. 29

第4章ShiftTopk评分 ......................... 36

4.1 数据来源 .................................. 36

4.2 数据集构建工具 ...................... 37

第5章 总结与展望..................................... 50

5.1 工作总结 ................................. 50

5.2 未来展望 ............................. 51

第4章ShiftTopk评分

4.1 数据来源

本文根据模型训练的需要,收集了少年连环拳的视频,构建了自有数据集。 少年连环拳的视频来自于五所上海中学,分别为:上海市南汇第四中学、浦东模范实验中学、东沟中学、上海市进才实验中学、上海市东林中学,视频练习少年连环拳的人群均为初中学生,大部分的视频长度在40s-50s,总计有134段视频,经过筛选后参与训练的视频数量为111段。

每个学校的视频数量如表4-1所示:

计算机应用论文参考

少年连环拳总共可以分解为4个小节,32个招式,分别为

第一节:弓步冲拳,弹踢冲拳,马步冲拳

第二节:弓步左右推掌,按拦推掌,上架蹬踢,马步推掌

第三节:弓步双冲拳,抱拳蹬踢,弓步冲拳,马步架打

第四节:弓步左右冲拳,回身冲拳,翻身劈砸,弹踢冲拳,马步冲拳

第5章 总结与展望

5.1 工作总结

本文以上海中考武术项目——少年连环拳作为切入对象,将人工智能等数字化技术应用于整个考试评分流程中。具体来说,整个评分流程为先使用普通相机(手机或专业摄影设备都可)拍摄学生演示少年连环拳的视频,然后采用目标检测模型Yolox将视频中学生的边界框提取出来,利用边界框对视频帧进行裁剪,然后缩放尺寸至合适后续模型的输入。后续的模型包含两个并行运行的模型:动作识别模型和姿态估计模型。动作识别模型采用Top-k自注意力改进的MVD模型,用来确定视频中少年连环拳32个招式对应的位置,姿态估计模型采用ShiftPose模型,从各个动作对应的视频帧中提取人体骨骼关键点,最后与动作相对应的数字动作标准进行匹配计算得出最终的扣分情况。至此实现了评分的所有过程。

由于当前对少年连环拳的研究比较少,没有公开的数据集,本文以较高的要求,从上海市五所学校的初中生中收集并建立了专门用于少年连环拳评分模型的数据集。每个视频都包含了完整的少年连环拳演示过程,且每