(1)提出了一种基于特征感知注意力Transformer的学生行为检测算法。为了提高Swin Transformer的特征提取能力,在Swin Transformer中先加入特征感知块,并将加入来加入特征感知块的Swin Transformer作为算法的主干网络;其次,为了捕捉学生抬头低头行为的更精细特征,减少特征融合过程中特征信息的丢失,在颈部网络中增添特征感知下采样模块;最后,在检测头中加入阈值分支,过滤低精度的检测框,提高学生位置的精度。实验表明,过本方法在不同数据集上的测试结果均达到了预期效果。
(2)提出了一种基于语音增强Transformer的思政关键词检测算法。首先,本方法设计语音增强模块,对数据集进行增强操作来扩充数据集,提高网络训练过程中的泛化性能。然后,将语音数据输入梅尔增强模块,通过梅尔变换得到的语音数据的梅尔频谱图,并在梅尔频谱图上使用FilterAugment方法对不同频率施加不同的权重,对高能量的频谱系数进行增强,提取语音信号特征。最后,将增强的梅尔频谱图输入到自注意力模块中学习特征向量,由多层感知分类头检测对特征向量进行分类,输出思政关键词检测结果。实验表明,本方法能够检测出智慧教室场景下语音记录中的一些思政关键词。
参考文献(略)