本文是一篇计算机论文范文,本文主要针对点云分类和点云分割两个子任务进行研究,从不同角度提出了两种点云分类分割模型,通过理论-实验论证的方式证明了模型的有效性。
第一章绪论
1.1研究背景及意义
近年来,随着科学技术的不断发展,人们逐步进入了智能化时代。AlphaGo是一种人工智能计算机程序,由谷歌旗下DeepMind公司开发,旨在学习围棋,并与顶级人类棋手竞争[1]。该程序在2016年3月击败了韩国围棋冠军李世石,成为围棋历史上第一个战胜人类顶尖选手的计算机程序。这个消息在全球引起了广泛关注。这一消息代表人工智能在某些领域已经能够替代人类更好地完成任务,标志着人类进入了人工智能时代。为抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,国务院于2017年7月8日印发并实施了《新一代人工智能发展规划》,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施,加快建设创新型国家和世界科技强国[2]。此后我国各大行业巨头纷纷推出人工智能产品,例如小度音箱、小米扫地机器人等,这些人工智能产品潜移默化地改变了我们的生活,加速推进智能化。
点云(Point cloud)指在相同参考坐标系下表示目标物体表面特征及空间分布的点。作为一种3D数据的载体,点云具有无序性、稀疏性、非结构化等性质。相比深度图、体素、网格等传统3D数据表示形式,点云能够保存更多的信息。获取点云的方式主要有以下几种:(1)激光雷达扫描仪:利用激光雷达设备对物体进行扫描,将物体表面反射回来的激光信号转化为点云数据;(2)立体视觉:使用一对摄像机对物体进行拍摄,通过对两个视角的图像进行匹配,计算出物体表面的深度信息,从而得到点云数据;(3)深度相机:利用深度相机等设备对物体进行拍摄,通过测量光的传播时间或结构光等原理,得到物体表面的深度信息,从而得到点云数据;(4)模型转换:将已有的三维模型文件(如OBJ、STL等格式)转换为点云数据。随着3D采集技术的发展,3D传感器可用性变得越来越高,因此点云数据变得越来越容易获取[3]。
1.2国内外研究现状
点云分类分割作为点云数据的重要研究内容,在很久以前就被应用于遥感、测绘工程等工业领域。点云数据和二维图像有着许多的共同点,因此在深度学习技术产生之前,很多处理点云的传统方法[9-11]是从图像处理方法演变而来的。深度学习兴起之后,研究人员着手将其应用到点云领域。经典的卷积神经网络(Convolutional NeuralNetworks,CNN)是在规则、有序以及结构化的二维图像上执行运算。由于点云具有不规则、非结构化的性质,导致其无法像二维图像一样直接输入到CNN之中。为了将其输入到CNN中进行训练,研究人员发明了基于投影的方法,其核心思路是将点云数据转换为能够输入CNN的中间表示以进行训练。这类方法主要有:
(1)基于多视图的方法。这类方法首先将点云在不同角度进行渲染获取二维图像,然后使用CNN对二维图像进行训练。此类方法的代表是MVCNN网络[12],它通过融合十二个视角的二维图像特征进行综合判断,如图1-4所示,在当时取得了不错的效果。为了使模型获取点云尽可能多的信息,应当提供尽可能全面的视图二维图像,但是在实际操作中会存在遮挡情况,使得模型无法学习到全面的特征。
(2)基于体素的方法。这类方法将点云体素化到三维空间当中,然后对其使用三维卷积神经网络进行训练。点云的体素化即利用占用网格(Volumetric Occupancy Grid)将环境状态表示为三维网格。这种表示方式很规整,便于将二维的CNN运算迁移到三维空间当中;但是由于点云具有稀疏性,体素化的点云数据离散运算量大。代表方法为VoxNet[13],该模型集成了体素化与三维卷积神经网络,可以通过多层叠加生成全局标签对点云分类[6]。图1-5展示了VoxNet的模型结构。
第二章相关理论与技术
2.1不同类型的分割任务
在图像处理领域中存在着不同类型的分割任务,这些任务按照分割的对象、分割方式进行划分,可分为语义分割、实例分割、全景分割和部分分割四种类型,下列将依次进行介绍。图2-1展示了初始图片,以及语义分割、实例分割、全景分割三种不同分割类型的区别[15]。
(1)语义分割
语义分割是指将图像中的每个像素赋予一个语义标签[16],即将图像划分为多个语义区域。每个像素被标记为属于特定类别的一部分,例如“人”、“车”、“树”等。换句话说,对于给定的图像,需要对其中每个像素进行语义分类,以实现目标分割的任务。图2-1(b)就是语义分割,可以看到模型用不同的颜色分割不同类别的实例,如将行人用红色分割,将车辆用蓝色分割等。同一类别不同实例的颜色相同。
(2)实例分割
实例分割是将图像中每个目标物体都分割出来并用不同的颜色标记。如图2-1(c),对于众多行人、车辆实例,模型用不同的颜色分割。此外,实例分割只对图像中的目标物体进行检测并分割,对于目标物体之外的对象(如图2-1(a)中的红绿灯),模型将不做处理。
(3)全景分割
全景分割可以认为是语义分割和实例分割的结合,它对图像中所有物体进行分割,并将同一类别的不同实例分割为不同的颜色[17],从而实现对整个场景的完整分割。图2-1(d)展示了全景分割的分割结果。
2.2基于点的方法
自从PointNet问世之后,研究人员都着眼于对基于点的方法进行研究,因为相比之前的基于多视图、基于体素的方法,基于点的方法可以绕过将输入点云转换为中间表示这一过程,节省计算量的同时避免了一些问题,如遮挡、量化伪影等。在众多基于点的方法中,它们又根据自身特点主要被分为四类,分别是:基于逐点MLP的方法、基于卷积的方法、基于图的方法、基于层次数据结构的方法,以下将依次介绍。
2.2.1基于逐点MLP的方法
PointNet是此类方法的先驱,它通过MLP学习每个点的特征并用对称函数编码全局信息解决点云的无序性问题;采用三维的空间变换网络(Spatial Transformer Networks,STNs)解决点云旋转不变性的问题;采用最大池化函数聚合点特征解决点云置换不变性的问题[6]。PointNet的一个明显缺陷在于它独立学习点云数据中每个点特征因而无法学习点云之间的局部结构信息。为了解决这个问题,Qi等人提出了一种分层学习的模型PointNet++[18]。PointNet++使用最远点采样法(Farthest Point Sampling,FPS)采样局部中心节点并根据这些局部中心节点将点云数据划分为多个局部区域,再使用PointNet来提取每个局部区域的特征。PointNet++的核心结构由三个部分组成:采样层、分组层和基于PointNet的学习层。通多叠加多个这样的核心结构,实现逐层抽象局部特征的效果。
PointWeb[19]是一种增强点云处理中局部邻域特征提取的方法。它提出了一种学习邻域特征的模块,让模型在学习点局部邻域结构特征时不仅学习中心点和邻域点的关系,而且学习邻域点之间的相互关系,相当于是建立了一个局部邻域内的完全链接网络,增强了分类分割的效果。
第三章 基于图卷积和三维方向卷积的点云分类分割模型 ................ 20
3.1 背景介绍 ................................... 20
3.2 GCN3D模型介绍 ............................. 20
第四章 基于动态卷积核和通道注意力的点云分类分割模型 ............ 36
4.1 背景介绍 ........................... 36
4.2 DCK-DA模型介绍 ......................... 36
第五章 总结与展望 ....................... 48
5.1 研究工作总结 ........................ 48
5.2 未来工作展望 ............................. 49
第四章基于动态卷积核和通道注意力的点云分类分割模型
4.1背景介绍
近年来,深度学习在点云上的应用引起了众多研究者的关注。点云作为一种高精度数据,在三维重建、自动驾驶等众多领域有着广泛的应用。现有的深度学习点云分类分割模型通常使用共享MLP来学习每个点云的特征,通过共享MLP利用权重共享机制来降低网络的训练参数,然而该机制限制了模型捕捉不同空间信息的能力[64];另外现有模型由于在将点云特征嵌入到高维度之后缺乏提取包含重要信息的通道维度特征的操作,导致模型一视同仁地学习所有通道维度的特征而不具有针对性,因此不利于特征学习。
为解决上述问题,本章提出一种结合动态卷积核与双池化通道注意力的点云分类分割模型(Dynamic convolution kernel and dual-pooled channel attention,DCK-DA)。DCK-DA模型使用基于动态卷积核的自适应卷积替换共享MLP,以解决权重共享机制引发的问题。在此基础上本章还设计了结合最大池化和平均池化的通道注意力模块,使模型不仅能够获取显著特征,还能强调重要特征而抑制边缘特征,从而更有针对性地学习不同的通道维度特征信息。实验证明,相比其他模型,DCK-DA能够在点云分类分割任务上取得更好的效果。
第五章总结与展望
5.1研究工作总结
随着近些年科技的高速发展,人们逐渐步入信息化时代。数字化引发的新浪潮正席卷而来,颠覆、重构我们的生产、生活[68]。在这信息化时代中,数据显得尤为重要。人们的日常行为、远处的风景、自然规律,这些都是数据,它们可用于训练AI,然后又反馈给人类及大自然。可以说生活中的