计算机应用论文栏目提供最新计算机应用论文格式、计算机应用硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于特征融合的视觉计算机关注算法研究

日期:2018年01月29日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1020
论文价格:150元/篇 论文编号:lw201801282144201240 论文字数:37485 所属栏目:计算机应用论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
1 绪论

1.1 研究背景及意义
伴随机器学习、模式识别及各类人工智能计算方法的迅速发展和计算芯片更新换代,机器的计算能力得到了空前的提升。在智能机器学习算法和高性能计算芯片的支持下,计算机不仅仅是普通计算任务的承担者,更是人机交互、智能工业、智能服务的新型力量。日常生活中出现了各种各样的服务机器人,如安防机器人、扫地机器人和情感机器人等。人机交互在社会生活工作中扮演的角色愈加重要。人类主要通过视觉、听觉和触觉感知外界信息,其中视觉尤为重要,它能够接受 80%左右的外部信息,是人类的最主要信息来源。活动范围和视野限制了人类视觉感知。为了突破限制,人类将视觉传感器应用与各种机器、设备,使其能够像人一样通过视觉感受外部世界。因此机器视觉(Machine Vision)应运而生并成为人机交互的热门研究方向。通过视觉信息分析他人行为目的是人的基本能力,人们希望在人机交互过程中机器也具备人类的学习分析能力,理解人类的行动目的并主动与人类进行沟通交流,但是对于机器而言目前仍是一项艰巨的挑战。视觉关注(Visual Focus of Attention, VFOA)作为机器视觉的核心问题和热点研究引起了各行业人员的高度关注。它是指基于数字图像数据运用机器学习、模式识别等人工智能计算方法对人的头部姿态或者眼部行为进行建模,计算头部朝向或者眼睛凝视方向,预测视觉关注目标所在的方向或者位置。作为数字图像处理、机器学习、模式识别、统计学分析和状态估计等多学科交叉的前沿学科,视觉关注不仅解决了一般概念上的视觉问题(如特征提取、目标分割等),而且解决了高层次的机器视觉问题(如情绪分析和理解、行为预测等),为机器视觉奠定了基础。同时也是人机交互的关键技术。因此,进十几年来视觉关注的重大学术价值和广阔的应用前景得到了各界人士的广泛关注,成为了计算机视觉、人机交互乃至人工智能的一个重要研究课题。
..........

1.2 研究现状
视觉关注由头部姿态估计和凝视估计两大核心内容构;特征融合是视觉关注算法的最基本内容;公开的视觉关注数据集为视觉关注技术的研究提供了强大的数据支撑;各种性能评价方法为视觉关注算法的改进提升制定了参考标准。因此,本节阐述了以上五个方面的研究现状。头部姿态估计是视觉关注的研究热点之一。在机器视觉中,头部姿态估计定义为根据数字图像中的头部特征推测头部与摄像机的相对角度。头部姿态的变化如图1.6所示。一般情况下的头部运动包括平移和旋转6个自由度(DegreeofFreedom,DOF)的运动。平移包括在头部位置移动过程中上下、左右和前后方向的水平移动;旋转是指在头部位置固定条件下水平方向的偏航(yaw)、垂直方向的俯仰(pitch)以及在相机成像平面的旋转(roll)。在头部姿态估计中,通常假设头部为位置固定的刚性物体,相对于摄像机仅存在 yaw,pitch 和 roll 三个自由度的运动。理想状态下,人们希望将三个方向的角度都计算出来,但是在实际应用试验中发现一方面对于目前的研究十分艰巨,另一方面 yaw 和 pitch 的计算研究价值更高。因此,在研究过程中往往计算这两个角度,从而预测行为人的头部姿态,进而估计其视觉关注方向或者感兴趣目标所在的位置(或范围)。头部姿态蕴含丰富的交互信息,尤其是在特定的交际场景中,头部姿态数据为人类的行为分析提供强大的数据支持。日常交流中,头部姿态可以反映交流双方对话题的兴趣度以及对交流对象给出结论的回应。点头表示同意对方的观点,摇头表示对当前评论表示否定或者尚存疑虑。教学场景中,头部姿态可以反映学生的注意力状态及其兴趣度;教师的头部朝向和手势可以反映其关注的对象或者希望产生课堂互动的对象。安全监控场景下,危险份子的头部姿态变化规律异常,监控人员可以尽早做出干预以保证社会稳定和安全。另外,心理学研究表明,头部姿态可以在一定程度反映出人的心理状态。驾驶过程中,司机持续点头可能是处于疲劳状态;突然的左顾右盼则反映出人的心理紧张或者胆怯;头部朝向伴随一致的手势指向,反映出这个方向存在相应的感兴趣目标。在人机交互中,长期以同一姿态注视屏幕说明人对屏幕显示信息十分感兴趣。人类可以主观地估计头部姿态,然而无法对其进行精确的量化分析,无法获得准确的头部姿态并对其进行标注。在视觉关注中,头部姿态标签通过人脸图像标注获得的。基于机器学习和模式识别的方法,首先基于头部姿态数据集训练头部姿态模型,然后使用该模型预测目标图像中的头部姿态,最后结合空间中的目标位置和头部姿态判断人的感兴趣区域,从而实现视觉关注的预测[24][25]。
...........

2 理论研究综述

头部姿态估计、凝视方向估计以及二者相结合的视觉关注算法三个方面是视觉关注研究内容的核心。人脸检测算法、特征降维技术和相机成像模型是视觉关注算法研究的基础理论。人脸检测算法是视觉关注技术的先驱条件,数据降维技术为实时高效的预测视觉关注状态创造了理论基础,相机成像模型为高精度的几何视觉关注算法奠定了物理基础。本章就视觉关注算法涉及的人脸检测算法、特征降维算法和相机成像模型等理论基础进行了概述。

2.1 人脸检测算法
人脸检测是视觉关注算法的先决条件,直接影响视觉关注的计算性能,而人脸特征决定了人脸检测的效率。因此,人脸特征提取是视觉关注算法的数据来源。人脸特征提取是指在图像数据中定位能够精确表达人脸区域的像素点。近 30 年来,国内外科研机构十分关注人脸特征提取的研究并取得了大量的科研成果,如清华大学、北京大学、中国科学院大学、MIT、Stanford University、Harvard University等。具有代表性的人脸特征包括肤色、几何形状、方向以及统计学信息(机器学习)。本节将针对上述人脸特征进行详细介绍。基于经典的高斯肤色模型,刘春生提出了改进的高斯肤色模型并应用在人脸检测中。实验发现,提取后人脸区域的灰度分布可以用单高斯模型拟合,刘春生等人将灰度单高斯与色度二维高斯模型加权结合构建的新模型有效突显了肤色区域与非肤色区域的差别,并且对光照变化场景鲁棒性较高[87]。Ravi 采用多颜色空间的线性决策边缘分类器与高斯模型结合的方法进行肤色区域分割并采用多个公开人脸数据集测试,研究表明将不同颜色空间的高斯模型相结合的方法可以提高肤色区域的分割性能[88]。
........

2.2 特征降维算法
随着互联网技术的发展信息呈爆炸式增长,为了获取有效信息常常需要挖掘数以万计甚至更多的相关信息。随之产生了大量的信息噪声、失真和混乱,它们抑制了数据处理工具的性能。过多的特征增加了计算的时间复杂度,而这种数据的增加并没有对测试方法的性能带来任何增益。不良的特征选择会降低分类器的性能。为了降低数据的噪声,应该去除与分类目标信息弱相关的特征。因此选择适当的特征对于分类系统的任何决策操作都是至关重要的。识别丰富的有价值特征集并过滤那些混淆分类器和产生较差性能的无关特征是特征降维的核心内容。当类信息丢失时,通常使用聚类算法,根据簇散射或者紧凑度可以确定是否包含特定特征,以决定在数据降维过程中是否保留该特征。特征降维的最终目的是去除冗余信息和噪声,进而解决维数灾难。常用的特征降维方法包括主成分分析、线性判别分析和局部线性嵌入。PCA 的最终目的是希望在降维之后仍然能最大程度的保留数据的原始信息,并通过在投影向量熵数据的方差来衡量该方向数据的重要性。但是,在一些情况下投影以后无法保证有效的区分数据,反而使得本来以易分数据点投影融合在一处无法区分,如图 2.4 所示。这是 PCA 存在的重大问题。若使用 PCA 将数据点投影至一维空间上时,根据方差最大化原则,PCA 会选择1  轴,这使得原本很容易区分的两类数据点投影被揉杂在一起变得无法区分;而这时若选择2  将会得到很好的区分结果。
..........

3 EWGP 头部姿态估计算法 ......... 41
3.1 信息熵............ 41
3.1.1 定义............41
3.1.2 熵的分类............42
3.2 头部姿态特征......... 43
3.3 EWGP 特征融合算法 ..... 46
3.4 EWGP 头部姿态估计算法 ...... 47
3.5 实验结果及分析..... 48
3.6 本章小结........ 54
4 基于 DIRA 的头部姿态估计算法 ............55
4.1 AdaBoost........ 55
4.2 LBP 头部姿态特征 ......... 56
4.3 DIRA 深度信息重建算法........ 57
4.4 加权人脸深度信息重建算法............ 60
4.5 实验结果及分析..... 64
4.6 本章小结........ 70
5 GAVH 视觉关注算法 .....73
5.1 VGG 卷积神经网络......... 73
5.2 HMM 视觉关注标准模型........ 81
5.3 凝视方向辅助的视觉关注模型........ 84
5.4 实验结果及分析..... 88
5.5 本章小结........ 93

5 GAVH 视觉关注算法

传统视觉关注算法或使用头部朝向作为视觉关注方向的近似值,或基于固定头部姿态独立研究视觉关注方向。研究表明,固定的头部朝向对应的是多个视觉关注方向,在每一时刻视觉关注的目标具有唯一性,不能简单的以头部朝向做近似值或者固定头部位置仅考虑视觉注意方向。为了解决头部朝向与凝视方向的歧义性,本章对头部朝向和凝视方向进行建模,设定通过 VGG 网络构建头部运动窗口,计算运动窗口中的头部朝向和凝视方向,使用隐形马尔科夫模型(Hide MarkovMod