本文是一篇计算机应用论文,本文就“合成数据驱动的图像融合方法研究”进行了广泛的探索,结合光传输模型的合成数据集设计健壮的网络结构,提出了一系列有监督的图像融合算法。
第一章 绪论
1.1 课题的研究背景和意义
由于单类型传感器无法获取特定场景的全面信息,因此需要融合多类型传感器信息来获得更为全面的场景信息。图像融合是指将多个传感器对同一目标获取的图像经过图像处理得到高质量图像的过程。融合后的图像可以最大限度的提取源图像各通道的有用信息并集成在融合图像中,并且在此过程中不引入任何伪影[1],融合图像有利于人眼观测以及后续的图像处理。由于可以融合多模态图像的特征,消除了不同传感器之间可能存在的信息冗余,来增强有用信息的提取,改善利用率,从而生成效果良好的融合图像。因此,图像融合技术在物体识别[2]、遥感[3]、图像增强[4]和计算机视觉等领域发挥着越来越重要的作用。图像融合技术被应用于多个领域,包括数字影像领域的多聚焦图像融合[5]与多曝光图像融合[6],多模态成像领域的医学图像融合[7]与红外和可见光图像融合[8],遥感影像领域的多光谱和全色图像融合与多光谱和高光谱图像融合[9]。
本文主要研究红外图像与可见光图像的融合以及多聚焦图像的融合,部分融合图像示例如图 1-1 所示。对于红外与可见光图像的融合,红外成像通过捕捉目标的热辐射信息,具备较强的抗干扰和目标识别能力,减弱外界环境对观察者的影响,但具有低分辨率的缺点。可见光成像主要依据太阳辐射,因此容易受到外界环境的影响,比如太阳高度,云量和天气变化。但是由于获取的是多光谱信息,因此具有较多的纹理信息和高分辨率。因此红外和可见光图像的融合可以获取目标清晰的轮廓和纹理信息,有利于目标识别和物体检测和视频监控。在多聚焦图像融合中,由于相机的成像机制,无所获取场景中全部聚焦信息,因此部分图片存在失焦和模糊现象,而多聚焦图像融合可以将不同焦点的图像融合在一起,让融合后的图像信息量更丰富,能够真实的反应场景信息。
1.2 课题研究现状
2013 年,Li 等人采用均值滤波将图像分成基础层和细节层,先通过高斯滤波得到图像的显著图,然后在显著图的基础上构建权重图,在原图的引导滤波指导下,生成基础层和细节层的权重图,然后对细节层和基础层加权平均重构图像[13]。2015 年,Zhang等人通过 GBVS 算法提取图片的聚焦区域进行图像的融合[14]。 2016 年,Liu 发现在多聚焦图像的融合中,容易存在缺失低频信息分量的现象,于是提出基于深度学习的低频子带融合规则的图像融合方法,对于图像的低频信息特征,利用自编码网络提取,对于图像的高频信息,通过小波滤波器提取。2017 年,Ma 等人[15]采用滚动引导和高斯滤波器对红外和可见光图像分解,得到图像的基础层和细节层,然后使用改进的视觉显着图和加权最小二乘分别优化融合基础层和细节层。神经网络的发展带来了图像融合领域融合方法的更新,网络结构与融合规则的设计对于融合图像质量有着决定性的作用。2017年,黄等提出了基于目标增强的红外与可见光图像融合方法,利用均值滤波和图像统计信息来获取细化的透射图,然后依据大气模型增强红外图像目标,接着对增强的图像利用改进的 Prewitt 算子进行边缘检测,二值化边缘检测结果,融合规则基于边缘检测结果,对边缘部分采用二值信息融合规则,对非边缘区域采用加权的融合规则[16]。2019 年Mei 等人提出一种基于深度学习的金字塔结构融合模型,通过双通道卷积神经网络来提取图像特征,然后用金字塔池化来处理原来的下采样层,为了提升网络的深度,通过模拟的多聚焦数据集进行训练。Ma 等人结合 GAN 网络[16]提出了一种融合红外与可见光图像的方法,其中,生成器负责生成具有红外特征和可见光纹理的图像,而鉴别器则通过和生成器进行博弈,让融合图像具有更多的纹理细节,这使得最终的融合图像可以同时保持红外图像的将热辐射信息和可见光图像的纹理信息。熊[18]提出了一种适合于多任务平行训练的卷积自编码网络,网络采用无监督的端到端方式训练,通过设计基于特征层的融合单元,让解码层直接输出融合结果。在此基础上,针对基于空间域的方法存在边缘信息丢失的问题,设计了一种联合卷积自编码网络用于多聚焦图像融合,考虑到多聚焦图像先验的冗余和互补关系,网络分别提取源图像的公共特征和私有特征,然后基于私有特征设计融合规则,在空间域实现了多聚焦图像融合,并取得了良好的效果。2020 年,Liu [19]等提出了一种基于卷积神经网络的通用图像融合框架 (Image Fusion Framework Based On Convolutional Neural Network, IFCNN),该框架采用自编码结构,整个网络包含三个重要步骤,即特征提取,特征融合和特征重构。提出的模型是全卷积的,以端到端的方式进行训练,在多类数据集,如多聚焦、红外和可见光、多模态和多曝光上均取得了较当下图像融合算法相当甚至更好的结果。GAN 作为深度学习中的重要方法之一,可通过生成器来获取特征,在鉴别器中与生成器的结果进行博弈,来提供更多的细节信息。GAN 可以有效防止过拟合,具备较好的泛化能力,在图像处理、图像生成和图像分割等领域广泛应用。从上述的研究不难看出,网络结构与融合规则的设计对于融合图像质量有着决定性的作用。
第二章 图像融合相关技术介绍
2.1 深度学习技术介绍
在传统的机器学习方法中,需要人工设计提取特征算法,将会影响到后续的图像处理,而基于深度学习技术则可以避免由于人工设计算法带来的误差,削弱人为因素对融合质量的影响,从而提高融合质量。
从结构层面可以将机器学习分为浅层机器学习模型和深度学习模型。其中浅层学习模型如支撑向量机,最大熵方法等。这些模型的结构只有 1 个或 0 个隐层节点,在网络训练时容易存在过拟合,训练样本有限等局限。不同于浅层机器学习模型,深度学习模型在结构上具备更深模型深度,通常有 5 层或更多隐层节点,多隐层的神经网络具备更好的特征学习能力,能够用较少的参数表达复杂的函数。依据输入样本数据是否有标签,可以将深度学习分为有监督和无/半监督学习。
2.2 卷积神经网络
卷积神经网络(CNN,Convolutional Neural Networks)作为经典的有监督深度学习神经网络, CNN 通过学习多个卷积核从输入数据中提取丰富的特征和拓扑结构,并利用前向传播和反向迭代来优化网络结构,因此具备较强的自适应性和鲁棒性。CNN 网络由卷积层,激活层,池化层,全连接层四部分组成,如图 2-1 所示。较低的层主要提取源数据的纹理和边缘特征,较高的层更倾向于获取语义特征。其中卷积层通过卷积运算提取数据的局部特征,激活层通过引入非线性函数,来增加网络对复杂事物的学习能力,下采样层通过降低特征图的大小来降低网络的复杂度和避免网络的过拟合,全连接层用来连接所有特征,将特征进行分类,然后输出最后的结果。现在一般将全连接层换成卷积层,减少参数的训练和图像输入大小的限制。由于卷积神经网络的输入是样本数据,因此可以有效的从大量样本中学习到对应的特征,避免了传统网络手工设计的特征提取方法。卷积神经网络还具有局部感知和参数共享两个特征,可以有效避免复杂的特征提取过程和降低网络模型的复杂度。为图像处理、目标检测和人脸识别等计算机视觉领域带来了新的发展。典型的卷积神经网络包括 VGG 和 ResNet 网络。
2.2.1 VGG 网络
VGG 是 Oxford 的 Visual Geometry Group 在 ILSVRC 2014 上相关工作提出的,有VGG16 和 VGG19 两种结构,工作验证了增加网络深度能够在一定程度上增加网络的性能。与 AlexNet 不同,在 VGG16 中包含了 16 个隐藏层(13 个卷积层和 3 个全连接层),网络利用多个 3×3 的卷积块来替换 AlexNet 中较大的卷积块(5×5,7×7,11×11),保证感受野的同时不仅提升了网络的深度,也减少了网络训练的参数。在池化核中用 2×2 代替 AlexNet 中 3×3 的池化核。在网络测试阶段,将全连接层全部替换为卷积层,使得网络没有全连接层的限制,可以输入任意大小的图像。因此 VGG 的泛化能力非常好,在不同的图像数据集上都有良好的表现。到目前为止,VGG 依然经常被用来提取特征图像。
第三章 基于光传输模型的合成数据集 ................................ 14
3.1 合成数据介绍 ................................ 14
3.2 合成数据方法 ...................................... 15
第四章 基于光传输模型的红外与可见光图像融合 ........................ 21
4.1 图像融合框架 ...................................... 22
4.2 图像融合模型 ................................ 22
第五章 基于变换特征的红外与可见光图像融合算法 .............................. 32
5.1 基于特征提取的有监督 GAN ..............................