本文是一篇计算机论文范文,本文主要研究了基于多视角图片的三维重建技术,这种方式准确、高效、且不需要昂贵的成本,利用普通相机对目标人物拍摄多张角度的图像,便可以重建出较为理想的人体模型。
第 1 章 绪论
1.1 研究背景及意义
近些年来在互联网技术快速发展的大环境中,虚拟现实和三维建模技术也逐渐走向成熟,三维建模技术是指通过硬件和软件的使用来对场景建立三维模型,相对于二维图像,对图像中的事物进行三维展示能提供更多信息,三维建模已经成为很多领域重要的研究领域,比如文物保护、场景模拟、医学治疗、人体测量等[1]。在文物保护领域,对文物进行三维重建不仅实现了文物的三维展示,也记录了文物的具体纹理信息,为文物的修缮和恢复提供了重要的数据支持;三维重建可以用于各种场景模拟,比如游戏场景模拟可以为用户带来不同的体验,房屋场景模拟可以方便买家远程了解房屋的整体或细节,也方便卖家讲解;三维重建还可以对人体的组织、器官等重建三维模型,这样能够提供给医生一个更为直观的感受,提高了医疗诊断的准确性;对于人体测量领域,人体三维重建的精度对人体测量的准确性有着重要的作用。
互联网技术的发展也带动了网上购物的消费模式,传统的网购已经不能满足人们个性化定制需求。在线个性化定制服装需要获得用户的量体信息,准确的在线量体能大大推进在线的个性化定制业务。人体的三维重建技术能为在线量体提供技术支持,而人体三维重建的精度对人体测量的准确性有着重要的作用。三维人体模型是计算机生成的近似于目标人物的虚拟三维模型,能准确且全方位的展现人体的大体以及细节信息,如何高效地重建出更真实的人体三维模型已经逐渐成为研究热点[2]。目前主要通过三种主流的方式来进行三维建模:第一种是利用专业的建模软件重建目标对象,这种方法周期过长,需要熟练地操作人员进行操作,并且对于形状不规则的目标对象,建模效果不太理想;第二种是通过相关三维扫描设备来扫描目标对象,获取目标对象的三维数据来进行三维重建,比如激光扫描仪,这种方法重建的模型精度高、效率高,但是设备成本较高;第三种是基于多幅不同角度的图像进行三维重建,这种方法是先通过手机、相机等摄像设备获得目标物在不同视角下的图像,然后使用三维重建的算法对图像序列进行处理,最终生成图像中的三维场景或者目标物体的三维模型。这种方式准确、高效、且不需要昂贵的成本,利用普通相机就可以重建出人体模型,是目前应用最广泛、最有研究价值的[3]。
1.2 国内外研究现状
随着计算机视觉领域相关技术的快速发展,已经成功应用到各个领域,在各领域中,计算机视觉的研究已逐渐成为热点。在计算机视觉领域中,三维重建相关技术是十分重要的技术之一,近些年来越来越多的人开始研究三维重建技术,三维重建在虚拟试衣、人体测量、车辆设计等领域都有广泛的应用。相对于国内,国外的学者更早开始研究三维重建方面的技术。Longuer -Higgin 提出了本质矩阵的概念,当两个投影之间满足空间未知时,通过摄影点的空间变换关系计算出场景的三维结构[4]。Penna 提出了使用透视投影的想法来改进存在的正交投影不唯一的问题[5],该方法通过一张目标图像就可以完成目标的重建,但是对于图像拍摄的光源有着较高的要求,导致该方法并不适用于较复杂的场景重建。Harris 提出了应用邻近像素点灰度值差值的概念,利用窗口滑动的思想在图像中进行移动,在此过程中,如果滑动窗口内有较大的灰度值变化,这就说明了该滑动窗口所在的领域中存在着角点[6]。特征点的匹配对可以用来求解相机参数恢复目标图像的三维结构的方式,由此,运动恢复结构(Structure-From-Motion, SFM)算法开始被人们广泛研究。虽然国内这方面的研究起步较晚,但是相关的技术研究也在进行中。比如刘钢等人[7]提出了一种三维重建系统,该系统可以进行场景交互,通过利用场景本身自带的信息重建出三维模型,更为真实的恢复了场景物体的纹理效果。
传统的 SFM 算法主要分为增量式和全局式。运动恢复结构 SFM 是通过对目标图像序列进行特征点提取和匹配,利用特征匹配对计算出相机参数、相机之间的相对位置以及目标对象的三维信息。特征点检测与匹配作为 SFM 的第一步,具有至关重要的作用。David Lowe 在 1999 年首次提出了 SIFT 算法[8],该算法主要是通过高斯差分金字塔(Difference-of-Gaussian, DOG)构造出空间尺度,然后在尺度空间中寻找极值点,该方法提取出的特征点不只具有尺度不变性,对于图像旋转角度或是亮度变化,该检测算法也能达到一个较好的效果,缺点是计算量大、速度慢。Bay 等人提出了 SURF 加速算法,是 SIFT 算子速度的三倍以上,该算法相对于 SIFT 主要是加入了 Harr 特征以及积分图像,从而达到了加速运算的效果,但是 SIFT 算法在特征的稳定性和鲁棒性方面更好[9].
第 2 章 相关技术介绍
2.1 图像预处理技术
本文研究的是基于多视图的三维重建方法,可通过普通相机采集目标对象图像,在图像获取时可能由于硬件设备的不足或拍照环境的影响,所获取的图像可能会出现一些噪声,这样会直接影响到后续的操作。因此,本文对图像进行预处理,一方面主要是为了去除图像中对于特征点提取时无关的信息,另一方面是对图像中的有用信息进行增强,使得能充分利用有用信息。图像预处理主要包括灰度化、几何变换、图像平滑与锐化处理[24]。其中图像的平滑处理通过滤掉高频分量从而减少图像的噪声,但是会使得图片变得模糊,而图像的锐化处理是相反的处理方法,其是通过增强高频分量来增强图像的清晰度,但锐化处理后也增加了图像噪声。
常用的图像锐化的方法是使用 Sobel 算子[25]和拉普拉斯(Laplacian)模版[26]。
Sobel 算子包括横向和纵向两种模板,如图 2.1 所示,其中𝐺𝑥为横向模板,𝐺𝑦为纵向模板。
2.2 图像分割技术
图像分割是指将图像划分成若干个不同的区域,具有相似性特征的则属于同一区域[28],是当前计算机视觉领域中十分重要的研究方向,同时也是图像处理中十分困难的问题之一。语义分割和实例分割是图像分割算法中的两种常见类型,其中语义分割对于相同类别的对象会使用同一种标签去标识,而实例分割中每个对象都用不同的标签标识。其中实例分割是一种最接近人类视觉感受的方法,是计算机视觉中较为重要和具有挑战性的研究内容之一。
传统的图像分割方法主要包括四种,分别是基于阈值[29]、基于边缘[30]、基于区域[31]和基于图论[32]的图像分割方法。传统分割方法大多都只是利用目标图像的表层信息,且需要严格的算法和人工干预[28],比如基于阈值的方法是通过灰度值比较来得出结果,该方法适用于图像中目标对象和其它信息的具有较大灰度值差的场景,对于复杂场景图像的分割效果并不乐观;对于基于图论的分割方法,在使用该方法时需要通过交互才能实现。近些年随着深度学习的快速发展以及引入,传统的图像分割方法已不能满足现如今的需求,图像分割领域引入了卷积神经网络,使其可以充分利用图像的信息,能取得更好的分割效果,越来越多学者提出了基于深度学习的图像分割算法,如全卷积网络 FCN[33]、金字塔场景解析网络 PSPNet[34]、Mask R-CNN[35]。其中 Mask R-CNN 能实现出更高精度的图像分割效果,是目前最优秀的实例分割算法之一。
第 3 章 人物图像分割与特征点匹配.......................... 16
3.1 人物图像分割 ......................... 16
3.1.1 Mask R-CNN 主要思想 .................... 16
3.1.2 实验数据及环境 ............................ 17
第 4 章 基于多视图的三维重建....................... 26
4.1 SFM 稀疏重建 ................................... 26
4.1.1 图像初始化及配准 ........................... 27
4.1.2 三角测量 ................................... 27
第 5 章 人体三维重建服装电商系统中的应用........................... 37
5.1 管理员需求分析 ............................ 37
5.2 普通用户需求分析 ............................. 38
5.3 系统功能模块设计 ........................ 40
第 5 章 人体三维重建服装电商系统中的应用
5.1 管理员需求分析
管理员作为用户信息和三维建模效果的维护及管理,具有的功能包括登录模块、文章管理、分类管理、标签管理、普通用户信息管理模块以及模型反馈等。管理员的用例图如图 5.2 所示。
管理员具体的模块功能描述如下:
1) 登录模块
管理员打开后台系统登录界面,输入正确的用户名和密码进行登录,登录之后可以进入到管理员界面,对相关信息进行查看及编辑。
2) 普通用户信息管理模块
管理员登录之后可以查看关于普通用户的信息,用户名、昵称等,还可以对用户重建的人物模型进行查看和反馈。
3) 文章管理模块
文章管理模块主要是管理员通过该模块去新