本文是一篇计算机软件论文,本文开展基于多特征融合哈希的大规模图像检索方法的研究。主要内容包括:(1)本文提出了一种融合权重自适应的多特征融合哈希方法,该方法设计了一个统一的学习框架,能够快速自适应的融合多个图像特征,从而能够有效的进行大规模图像检索。具体来说,该方法首先利用神经网络提取图像的深度特征表示,然后通过一个自适应权重项,将多个特征进行有效的自动融合,提高哈希码的检索精度和优化速度。在公开的数据集上进行的大量实验证明,该方法具有比最新相关技术更优越的性能。
第一章 绪论
1.1 研究背景与意义
随着信息技术的飞速发展,获取信息的方式变得越来越方便、快捷,在信息获取速度加快的同时,高维数据不断涌现,信息的类型如(图像、文本、音频、视频等)和范围也在不断扩充,数据呈现爆炸式增长的趋势[1][2][3]。面对复杂多样的图像数据,如何快速且高效的检索出具有价值的结果,是大数据时代面临的重要问题,也是本文研究的重点。
目前,在大规模图像检索领域,基于哈希的检索技术受到广泛的关注[4]。哈希方法的主要思想是通过使用合适的哈希函数将输入的原始高维数据转换成低维的二进制编码(即哈希码),然后通过计算哈希码之间的汉明距离衡量不同图像间的相关性。由于利用哈希码能够显著减少图像所需的存储量,并且极大地提高图像检索效率,因此,哈希学习是解决大规模图像检索问题的一种有前景的方法[5][6][7]。
多特征融合哈希通过有效地融合多个特征来提高哈希码的检索精度,但是现有的方法还存在三个重要问题:1)多特征融合哈希需要考虑多个特征之间的互补性,这对哈希码的检索性能至关重要。传统的方法通常利用固定权重来融合多个特征,这需要额外增加一个超参数来平衡正则化项,然而当语义标签未知的时候,超参数的调整过程将耗费巨大的人力。2)对多特征图像数据进行语义标注是耗时耗力的,特别是对于大规模数据集而言,获取数据集中所有数据的标签信息更是难上加难。3)优化速度慢。目前存在的几种离散多特征哈希方法都是通过离散循环坐标下降法逐位进行哈希码求解的,优化速度慢。
..........................
1.2 研究现状
根据学习哈希码的过程中利用的特征的数量不同,哈希方法可以分为单特征哈希和多特征哈希。
1.2.1 单特征哈希
单特征哈希是输入和输出都是单个特征的哈希检索方法。最早的单特征方法是局部敏感哈希(Locality-sensitive Hashing,LSH)[15],它首先将数据点投影到随机超平面上,然后进行随机阈值化。尽管这种与数据无关的随机方法是有效的,但是由于它完全忽略了图像的数据结构,所以在处理具有复杂结构的数据时,无法获得令人满意的检索结果。此外,该方法通常需要较长编码和多个表以保证数据之间的相关性,但是这在实践中极大的降低了搜索效率。LSH 是数据无关型哈希,其哈希函数的获取过程和训练样本无关,编码过程方便快捷,但其无法捕捉原始数据的分布特征,其编码具有盲目性,需要较多的编码位数才能达到较高的检索精度。数据依赖型哈希方法从训练数据中学习哈希函数,它能够充分考虑原始数据的分布和结构特征,从样本中学习到依赖与数据分布的哈希函数,而并非采用随机生成的方式。数据依赖型哈希能够更好的结合数据的特点,学习到对数据具有较强划分能力的函数,在满足同样检索精度的情况下,其编码位数会大大减少,同时也降低了数据的存储成本,因此数据依赖型哈希方法已经成为目前研究的热点。
根据训练数据是否使用标签信息做指导,单特征哈希又可以分为监督单特征哈希、半监督单特征哈希和无监督单特征哈希。
无监督单特征哈希,是指在学习哈希函数的过程中所利用的数据全部都是未标记的。研究者们改进了局部敏感哈希,提出了谱哈希方法(Spectral Hashing,SH)[16],谱哈希在利用主成分分析(Principal Component Analysis,PCA)[17] 给高维数据降维之后,对特征值和特征函数求解,在数据集服从均匀分布的情况下得到哈希函数。随后,又相继提出了迭代量化(Iterative Quantization, ITQ)[18],可扩展图哈希(Scalable Graph Hashing, SGH)[19], 潜在因子哈希(Latent Factor Hashing, LFH)[20],多监督的离散哈希(Discrete Hashing with Multiple Supervision, MSDH)[21]和相似自适应深度哈希(Similarity-adaptive Deep Hashing, SADH) [22]。
............................
第二章 融合权重自适应的多特征融合哈希
2.1 概述
在实际应用中,图像检索是通过计算查询图像和和数据库图像之间异构视觉特征的相似性来描述,在检索技术中,基于哈希的索引方法在检索效率和精度方面得到提升[40][41],按照哈希函数将其划分为无监督和有监督的哈希方法。由于人工标注成本的局限性,在现实的图像检索场景中,无监督哈希具有更好的可扩展性。因此,本章主要研究无监督多特征融合哈希,通过无监督学习将多异构特征融合并编码为紧凑的二值哈希码[42]。虽然现有的无监督多特征哈希方法已经取得了很大的成功,但是仍然存在几个重要问题:
(1)权重设置。利用多特征之间的互补性是学习多特征哈希码的重要手段。现有的多特征融合哈希方法都是采用固定的权值融合多类型特征。主要通过将哈希学习获得的特征采用权值参数加权的方式进行融合,学习多类型特征之间的相关性,并且使用超参数平衡正则化项。在实际应用中,超参数调整对于离线的无监督学习和在线的检索阶段是不可行和低效的,而且在线的检索阶段中,真实检索数据的语义标签也是未知的,因此固定的权值设置方式不能直接、有效地获得检索数据的动态变化,缺乏可扩展性。
(2)存储和计算复杂度高。大多数的多特征哈希方法是对表示样本关系的预构图进行哈希学习。对于n个样本,构造这种图的计算和存储开销都是O(n2),在大规模的图像检索中是不切实际的,因此该方法对存储能力和计算成本要求高,
即算法复杂度高。
(3)优化的挑战。哈希学习本质上是一个离散优化问题,然而现有的多特征哈希方法大多采用两步松弛和舍入哈希优化策略。该方法首先对离散约束条件进行松弛,求解近似的连续值;然后通过阈值化计算二值码;该哈希优化策略会产生显著的量化误差,从而获得次优解。为了解决上述问题,提出离散哈希方法[31, 32]通过离散循环坐标下降法(Discrete Cyclic Coordinate Descend,DCC)来解决,该种方法的本质是逐位学习哈希码,在处理大规模的多媒体数据时耗时长,因此该方法的时间复杂度高。
.............................
2.2 模型构建和优化求解
本节将详细介绍融合多特征哈希的图像检索方法,内容主要有五个部分组成。第一部分介绍该方法所使用的相关符号和问题定义,第二部分详细介绍所提出方法的目标函数,第三部分给出求解算法目标函数的优化步骤,第四部分主要介绍该方法的在线查询阶段,第五部分对该方法进行时间复杂度和收敛性分析。
..............................
第三章 快速半监督多特征融合哈希 ...................................... 21
3.1 概论 ...................................... 21
3.2 模型构建和优化求解 ............................... 22
第四章 总结与展望 ............................. 37
4.1 论文工作总结 .......................................... 37
4.2 未来工作展望 .................................. 38
第三章 快速半监督多特征融合哈希
3.1 概论
多特征哈希方法根据是否有标签作指导,可以分为无监督多特征哈希方法、半监督多特征哈希方法和有监督多特征哈希方法。无监督多特征哈希方法不需要专业人士进行手工标记标签,它通过提取数据本身的结构信息进行哈希学习,然而单纯的凭借数据本身的结构信息很难完整的表达数据,所以这种方法的结果往往不是很理想。有监督多特征哈希方法需要将所有数据进行人工标记,虽然监督方法的结果比无监督方法具有更好的性能,但是在人工标记过程中,需要消耗大量的人力物力,并且标记的过程与标记人员的经验有关,具有主观性。而半监督多特征哈希方法够有效的避免监督方法需要人工标记大量标签的问题,训练过程不需要人为干预,尤其是对于大规模的图像来说,这个优点更是显而易见的。
因此,考虑到大规模数据标签标记困难的情况,本章设计了一种快速半监督多特征融合哈希方法。本方法的主要贡献在于:
1、在充分考虑无标签数据特点以及有标签数据特点的情况下,通过利用大批量的无标签数据和少量的有标签数据进行哈希学习。
2、与大多数的多特征哈希方法采用构造图的方式进行哈希学习不同,该方法提出一种高效且快速的离散求解的方式来求解哈希码。
3、本方法在公开的测试数据集上进行大量的实验,实验结果表明,与最新的多特征的有监督和无监督哈希方法相比,本章提出的方法可以实现更加优越的性能。
................................
第四章 总结与展望
4.1 论文工作总结
随着移动互联网