本文是一篇软件工程硕士论文,本文的研究内容是基于生成对抗网络的服饰风格迁移,是一种针对未配对图像的转换方法,实现了对不同风格的服装进行风格迁移,达到在背景不变的前提下进行虚拟试穿。
第1章绪论
1.1 研究背景及意义
图像的风格迁移主要是指将参考图像的风格迁移到另一个输入图像中,通过选择带有参考风格的图像,可将不同的时段、季节、光照条件的内容图像,艺术化地转换成带有参考风格的图像。而图像风格迁移也可以被看成是图像纹理转移的问题。已有大量的成熟算法通过对风格图像进行重新采样来合成类似的人造纹理[1]。现有的图像纹理转换算法一般通过非线性的参数化纹理合成方法来达到保护图像结构的目的[2][3]。图像风格的研究结果表明图像纹理在一定程度上等同于图像的风格。
在神经网络出现之前,传统非参数的图像风格迁移工作主要是基于绘制物理模型以及合成纹理。Efros 等人[2]提出的一种简单的纹理合成算法,通过对样本的纹理进行拼接和重组从而合成新的纹理。Hertzmann 等人[3]提出了一种基于类推思想的研究方法,通过图像的特征映射关系来合成包含新纹理的图像。张海嵩等人[4]运用国画光照模型、多层纹理阵列等模块,能够以 3D 中国画效果对山峦场景进行实时的绘制。钱小燕等人[5]所提出的邻域一致性度量算法,将统计特性引入到相似性度量之中,从而达到提高图像匹配点搜索效率的目的。尽管这些算法和研究获得了较为可观的实验效果,但类似传统的非参数图像风格迁移算法只能够提取图像的一些底层特征,无法获取高层次的抽象特征。在处理颜色和结构较为复杂的图像时,最终生成的图像效果比较粗糙,难以符合实际应用的需求。
在深度学习[6][7][8]兴起之后,Gatys 等人[9]开创性地提出了基于卷积神经网络的一种图像风格迁移模型,在研究中发现可以使用卷积神经网络来将图像内容与风格的抽象特征分离开来,然后将得到的高层次抽象特征进行独立的处理从而有效地促进图像的风格迁移工作,实验结果展现出十分可观的艺术效果。与此相关的一些研究工作受到了学术界和工业界广泛的关注,同时也出现了大量后续的研究,可以大概分为基于图像迭代和基于模型迭代两个主要研究方向。
.........................
1.2 深度学习与生成对抗网络国内外研究现状
最近几年,在计算机各领域中的神经网络的应用再次成为研究热点,重中之重便是深度神经网络。2006 年,机器学习泰斗、多伦多大学计算机系教授Geoffery Hinton 在 Science 发表文章[17],提出基于深度置信网络(Deep BeliefNetworks, DBN)[18]可以使用非监督的逐层贪心训练算法,为深度神经网络的训练带来了希望。2012 年,Hinton 又带领学生在目前最大的图像数据库 ImageNet上,对于分类问题的处理取得了惊人的结果[19],将 Top5 错误率由 26%大幅降低至 15%。同年,由人工智能和机器学习顶级学者 Andrew Ng 和分布式系统顶级专家 Jeff Dean 领衔打造了 Google Brain 项目,使用包含 16000 个 CPU 核的并行计算平台训练超过 10 亿个神经元的深度神经网络,在语音识别和图像识别等领域取得了突破性的进展[20]。
2014 年,Goodfellow 等提出的生成式深度学习网络模型:生成式对抗网络(GenerativeAdversarial Nets, GAN)[10],在多个图像应用领域取得了较好的应用效果。GAN 系统包含一个生成器和一个鉴别器,生成器通过捕捉真实数据样本的潜在分布来生成新的数据样本;而鉴别器是一个二分类器,用来判别输入的数据是真实样本的还是生成器所生成的。整体结构如图 1.3 所示,将随机噪声z输入到生成器中,输出为模型生成的假数据。再将假数据与原始数据共同输入到鉴别器中,鉴别器通过判别输入的数据真伪从而将信息反馈给生成器或鉴别器,从而提升其生成样本或鉴别真假的能力。生成器与鉴别器均可使用深度神经网络。训练过程中,二者就像矛与盾一样,矛想要刺穿盾,而盾不想被矛刺穿,当矛能刺穿盾的时候就提升盾的厚实程度,当矛不能刺穿盾的时候就提升矛的锋利程度,这样最终得到了最锋利的矛和最厚实的盾。生成器 G 的工作就是尽量生成“真实”的图片来试图欺骗判别器 D。而 D 的工作就是尽量辨别出 G 生成的图像和真实的图像。G 和 D 构成了一个动态的极小极大博弈问题(Minimaxgame),最终的平衡点为纳什均衡点[21],使得生成器能够估测到数据样本的分布。
图 1.3 GAN 的结构
.............................
第2章 相关基础理论与研究成果
2.1 生成对抗网络
深度学习的任务目标是在人工智能领域里寻找足够丰富的能够表达各种数据概率分布的层次模型[72],例如自然图像、包含语音内容的音频波形和自然语言中的特定符号等。以往在深度学习的领域中,效果较好的模型大都为判别式模型,这类模型通常将高维度丰富的感知器输入映射到类标签之上[73]。这些模型的成功关键是反向传播和随机失活算法,特别是梯度良好的分段线性单元[74]。而当时因为最大似然估计和相关策略中出现的许多难以解决的概率计算十分的困难,还有很难在生成上下文中时利用分段线性单元的优势,深度生成类模型的应用效果并不好。
而生成对抗网络的出现很好的解决了这些难题。在生成对抗网络模型框架中,生成器对应着一个对手:一个学习去判别输入的样本是生成器产生的还是来自于数据本身的鉴别器。生成器相当于造假的角色,试图生产与真货相似到无法分辨真伪的假货,而鉴别器类似于鉴别的角色,试图去区分货物的真假。在这个相互竞争的过程中,两个角色不断提升自身的能力,最终使得生成的假货与原本的真货难以区分。
在生成对抗网络的训练过程中,对两个模块的训练是同时进行的。训练一个用来捕获真实数据分布的生成器 G,和一个用来分辨输入样本是来自真实数据还是生成器 G 的鉴别模块 D,G 的训练目标就是试图将 D 产生错误的概率最大化。整个框架相当于一个双方的极小极大博弈。在任意 G 和 D 的空间必然存在唯一的解,使得 G 能够恢复训练数据的分布,并且 D 处处都等于 0.5。在由多层感知器定义 G 和 D 的情况下,整个网络可以只使用已经非常成熟的反向传播和随机失活算法来对两个模块进行训练,生成模块在生成假样本时只需使用前向传播算法[75],并且不需要其他的前提条件,例如近似推理和马尔可夫链。
.........................
2.2 图像转换
早期的图像到图像转换最具代表性的一个任务就是图像类比[3],该模型使用CNN 学习颜色和纹理转换以及画家风格转换等翻译功能。在该文中,作者提出了一种新的统计方法来寻找图像之间的相似性,从建模的角度来看,变换不仅仅是移位、缩放和旋转,而是一种对象或关系到另一种对象或关系的映射。
对于图像类比,它的一个优点便是提供了一种非常自然的方法来指定图像变换。用户不必从无数不同的过滤器及其设置中进行选择,只需提供一个适当的示例(以及相应的未过滤源图像)并实际说:“使其看起来像这样。”该模型以未滤波源图像 、滤波源图像 ′和未滤波目标图像 三幅图像作为输入,产生滤波目标图像 ′作为输出。换言之,我们希望找到一个“类似”的图像 ′,它与 的关系与 ′与 的关系“相同”。
通过选择不同类型的源图像对作为输入,该框架支持多种图像转换效果,包括传统的图像滤波器(traditional image filters),如模糊或浮雕;改进的纹理合成(improved texture synthesis),其中一些纹理的合成质量高于以前的方法;超分辨率(super-resolution),其中从低分辨率推断出高分辨率图像来源或展示效果;纹理转移(texture transfer),其中图像是“纹理化”与一些任意的源纹理;艺术过滤器(artistic filters),其中各种绘画和绘画风格,包括油画、水彩画和线条艺术渲染,是基于数字过滤或扫描现实世界的例子合成的;以及“数字纹理”(texture bynumbers),其中使用简单的“绘制”界面创建由各种纹理组成的真实场景.
图 3.1 周期一致生成对抗网络模型
.........................
第 3 章 基于生成对抗网络的服饰风格迁移模型............... 23
3.1 服饰风格迁移方法概述 ..........................25
3.2 服饰风格迁移损失函数...................25
第 4 章 服饰风格迁移实验结果及分析....................... 30
4.1 数据集选择及预处理 ..............................30
4.2 实验设置及结果分析 ............31
第 5 章 总结与展望............... 41
5.1 总结 ......................41
5.2 进一步工作与展望 ..............................42
第 4 章 服饰风格迁移实验结果及分析
4.1 数据集选择及预处理
实际场景下的人物图像通常会同时包含多个存在交互多种姿态和遮挡的人物,因此同时对多个人物进行细腻度解析。并且对不同的人物加以区分,无疑更加符合实际的需求,那么基于这个观察,新加坡国立大学提出了一个全新的任务,叫做多人解析(multi-human parsing)