本文是一篇软件工程硕士论文,本文的工作主要是基于深度学习的数字图像操作篡改检测以及图像篡改区域定位的取证研究。开篇先介绍了数字图像取证的研究背景和意义,并简要介绍了数字图像取证技术的相关方法,接着对深度学习的相关理论知识进行了介绍,最后围绕数字图像操作篡改检测以及图像篡改区域的定位展开研究。
第一章 绪论
1.1 研究背景及意义
随着信息技术的飞速发展,手机、平板、数码相机等电子设备迅速普及,数字图像的获取日益便捷,已然成为人们获取和传递信息的重要载体。相较于文字而言,图像能够有效且准确地传达更为丰富的信息,其自身直观性、生动性的特点也更容易吸引人们的注意力,丰富和美化人们的视觉感受。因此,图像在人们日常的工作、学习和生活等方面都得到了广泛运用。然而,数字图像在给人们生活带来便利的同时,也给社会带来了一些安全隐患。
早期,由于图像获取方法和处理手段的限制,只有图像处理专家才能对图像内容进行修改并掩盖其中的篡改痕迹。现如今,数字图像采集设备愈发先进,尤其是美图秀秀、Photoshop、ACD-See 等图像编辑软件的发展和普及,很大程度上降低了图像的篡改与造假的成本,普通用户和专业用户都可以利用这些图像编辑工具来修改图像内容并且不留下明显的视觉痕迹。尽管大部分人只是把修改后的图片用于自身用途,但也有一些不法分子对图像内容进行了非法编辑,并利用篡改图像来达到自己的某种商业、政治、军事目的[1-2],对于社会的和谐稳定带来了较大的危害。近年来,国内外由于数字图像篡改引发的案例层出不穷,以下是一些比较恶劣的图像篡改事件:
2008 年 2 月,大庆晚报发表了关于摄影记者刘为强 CCTV 获奖作品造假的致歉声明。如图 1-1 所示,刘为强于《青藏铁路为野生动物开辟生命通道》中通过 PS 伪造了藏羚羊在铁路下奔跑而过的假象,在网友指出照片中的三大疑点后,其本人承认该作品是伪造的,该行为违背了新闻记者的操守和职业道德,对社会造成了一定的负面影响。
图 1-1 CCTV 获奖作品造假事件
............................
1.2 数字图像取证技术
图像的篡改方式有很多种,但不同的篡改方式都会在图像中留下特殊痕迹。数字图像取证技术正是通过分析图像内部的噪声特征、统计特性等来判断图像是否经过篡改。如图 1-4 所示,按照是否需要图像预处理,数字图像取证技术可以分为主动取证和被动取证两类,主动取证技术需要事先在图像中嵌入密钥信息,要求较为苛刻,不适用于现实场景。被动取证技术仅从篡改本身出发来进行图像取证,实用性强,下面将对这两种技术及相关方法进行简要介绍。
图 1-4 数字图像取证技术分类
1.2.1 主动取证技术
数字图像主动取证技术需要在图像在传输或发布之前嵌入密钥信息,如果图像内容或者格式被恶意修改,那么嵌入其中的密钥信息就会发生改变,在检测时只需要提取出图像的密钥信息并判断其是否完整即可。根据嵌入的密钥信息类型及其提取方式,可以大致分为数字水印[3-4]与数字签名[5-6]这两种技术。
(1)数字水印
数字水印在信息隐藏技术领域中占据重要地位,也是数字图像主动取证的主要方法之一。数字水印技术的提取和嵌入流程如图 1-5 所示,嵌入到数字图像中的水印信息既不会破坏图像内容,也不容易被其他用户感知和修改,但可以被发送方识别并确认。按照水印的抗干扰能力来分,数字水印可以分为鲁棒水印和脆弱水印两种,其中鲁棒水印主要应用于知识产权维护,可以有效地抵抗非线性滤波、噪声、有损压缩等数字操作或其他的恶意攻击。脆弱水印则可以用来验证数字图像的完整性以及其内容的真实性,一旦数字图像的内容或格式发生了改变,嵌入其中水印信息就不能被正常提取。总的来说,数字水印的优点是隐蔽性强,安全性高,但水印图像的生成过程较为复杂,所以在现实生活中的适用性受限。
........................
第二章 深度学习
2.1 深度学习概述
深度学习的起源可以追溯到在上个世纪 40 年代,直到目前,深度学习已经到了第三次发展的浪潮,现代术语中“深度学习”的概念最早由 Hinton 等人于 2006 年提出。目前,深度学习已是机器学习的一个重要分支,图 2-1 中展示了基于规则的学习、经典机器学习以及深度学习方法的设计流程,可以看到,深度学习方法不依赖于手工设计的特征,而是通过简单特征来提取更抽象的复杂特征,最后通过特征的映射完成结果输出。
图 2-1 三种方法的设计流程
深度学习作为机器学习的一个重要分支,其动机在于构建一个类似于人脑的神经网络模型,通过对原始信号进行逐层的特征变换,对特征进行自动的学习与表示,从而有利的进行分类、检测等任务。深度学习的发展跌宕起伏,在很长一段时间里,在分类任务中深度学习方法的性能都不如 SVM,直到 2012 年的 ILSVRC 比赛,深度学习方法的情况才得以好转,并开启了卷积神经网络的研究热潮。在 2016 年,DeepMind 公司基于深度学习开发的 AlphaGo 与多个国家的顶级围棋选手之间进行了多场比赛,最终以AlphaGo 全胜告终,表明在围棋领域中人工智能的水准已经超越了人类。目前,深度学习在自然语言处理、计算机视觉、语音处理、个性化推荐等领域中都取得了很多的成果,不少学者也将深度学习应用到了图像篡改领域,所取得的检测精度也远远超过先前的一些传统方法。在深度学习最重要的组成部分就是卷积神经网络,下面将介绍卷积网络的特性、组成结构、训练方法。
...........................
2.2 卷积神经网络
作为深度学习的代表算法之一,卷积神经网络被用来处理网格结构数据,例如时间序列数据和图像数据等。在 2012 年,Krizhevsky 等人[46]提出了一种新型的 CNN 框架AlexNet,一举刷新了以往的记录,获得了当年 ILSVR 大赛的冠军,开启了卷积神经网络的研究热潮。2015 年,He 等人[44]提出的 ResNet 网络,在 ILSVR 大赛中取得了 96.43%的准确率,再次证明了 CNN 所拥有的巨大潜力。
2.2.1 卷积网络特性
卷积神经网络之所以能在很多领取中取得成功,成为深度学习中最流行的一种算法,关键在于它的两大特性:稀疏连接和权值共享。
(1)稀疏连接
如图 2-2 所示,在全连接方式中,后一层神经元与前一层的每一个神经元之间进行相互连接,每个神经元都能获取到所有上一层神经元的信息。受人类视觉系统中每个细胞只对一个部分区域敏感,而对其他部分视而不见的现象启发,卷积神经网络采用了稀疏连接的方式,后一层的神经元只与前一层部分相邻的神经元之间进行交互,并不获取前一层所有神经元的信息。举个简单的例子,在文本信息中,相邻文字之间的联系往往是比较紧密的,而跨度较大的文字之间的关系较弱,可见局部连接的方式比较贴近人类的感知系统。相比于图 2-2(a)中的全连接方式,尽管后一层的神经元能获取到前一层神经元的全部信息,但这极大可能会造成信息冗余,从而增加了模型训练的负担,而图 2-2(b)中稀疏连接的方式很大程度上减小了网络中的参数数量,有利于网络的训练。
(2)权值共享
使用稀疏连接后神经元之间的连接减少了,但模型中的参数量依旧很庞大,想要进一步的减少模型参数数量,就用到了卷积神经网络的第二个特性:权值共享。在全连接层中,同一层的每个神经元所使用的权值矩阵都是不同的,而且权值矩阵中的每个参数只会被使用一次,这会导致模型变得十分臃肿,训练过程中容易发生过拟合现象。但在卷积网络中,同一层的神经元共享一个权值矩阵以及偏置项,在提取特征的过程中不需要考虑局部特征的位置,使得每一层中需要学习的模型参数大幅度减少。在训练过程中,模型将会自动学习到一些通用的卷积核,这既降低模型的复杂度,又加快了模型的收敛和运行速度。
.....................................
第三章 基于 SRM 和残差网络的图像操作篡改检测算法 ............................. 20
3.1 引言 ...................................... 20
3.2 网络模型结构 ......................... 20
第四章 基于 DeepLabV3+的多任务图像拼接篡改定位算法 .............................. 28
4.1 引言 ........................................... 28
4.2 Deeplabv3+ ........................................... 28
第五章 基于 MobileNetV2 和 SRM 的图像拼接篡改定位算法 ............................ 37
5.1 引言 ........................................... 37
5.2 MobileNetV2 .......................................... 37
第五章 基于MobileNetV2和SRM的图像拼接篡改定位算法
5.1 引言
在上一章中提出了基于 DeepLabV3+的多任务图像拼接篡改定位算法,但该算法的实现过程较为复杂,首先是数据集的生成,需要通过 VOC2012 数据集来额外生成篡改图像。其次是训练过程,需要先冻结主网络的卷积核参数来训练预测图像篡改区域边界的分支网络,